




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
掃碼關注公眾號掃碼關注公眾號費下載資料頁碼:頁碼:2/161掃碼關注公眾號免費下載資料多模態GraphRAG初探:文檔智能+知識圖譜+大模型結合范式 3知識圖譜與大模型雙輪驅動:金融行業智能化產品與架構的演進之路 融合知識圖譜與大模型的中醫臨床輔助決策體系 44智譜共融:大模型驅動的知識圖譜范式重構與演進路徑 59Graph+AI時代私域知識問答鏈路的建設與優化 89大模型+知識管理發展趨勢及標準化工作介紹 106圖驅動的知識管理:觀察與思考 123大模型和知識圖譜雙輪驅動的汽車制造業知識服務 頁碼:3/161掃碼關注公眾號免費下載資料多模態GraphRAG初探:文檔智能+知識圖譜+大模型結合范式導讀:本次分享聚焦多模態GraphRAG,深度剖析了文檔智能解析的技術鏈路,并梳理了相關工作進展,全方位呈現了文檔智能、知識圖譜與大模型結合的應用范式。文章主要包括以下幾大部分:1.文檔智能解析技術鏈路與文檔層級關系構建2.多模態圖索引構建與多模態檢索生成流程3.知識圖譜解決chunk之間關聯以及細粒度問題4.文檔多模態RAG相關工作進展5.總結6.問答環節分享嘉賓|余俊暉360高級算法工程師編輯整理|盧學林內容校對|李瑤出品社區|DataFun文檔智能解析技術鏈路與文檔層級關系構建免費下載資料掃碼關注公眾號免費下載資料頁碼:4/161首先來整體介紹一下文檔智能解析技術方案。上圖中對傳統RAG和微軟GraphRAG的鏈路進行了對比,GraphRAG在知識庫和知識圖譜的構建方面開展了大量工作。知識庫的構建是整個流程中至關重要的一個環節,所以接下來會重點介紹知識庫和文檔構建的技術鏈路。文檔處理技術經歷了一系列演變,從早期基于規則模板,發展到利用PDFParse等工具來進行解析,再到基于深度學習的版面分析。當前在深度學習的基礎上有各種分析技術,比如板式分析、公式識別、公式檢測、表格解析等。頁碼:5/161隨著大模型的發展,智能文檔處理主要參與到大模型語料加工的工作中,在RAG系統中主要承擔數據清洗的相關工作。文檔智能解析有三個技術方向,OCR-PIPELINE、OCR-Free和PDF-Parse。nOCR-PIPELINE輸入pdf文檔后,將其轉換為圖片,并進行版式分析,把內容進行區塊切割,針對文檔中的段落、標題、公式等區塊進行相應的處理。比如使用OCR識別文本中的標題、段落;通過表格分析處理文本內的表格;利用公式解析將文本內的公式轉換為LaTeX格式;對圖片也進行相應的處理。得到區塊的boundingbox后對其進行閱讀順序的排序,最終進行文檔的恢復,轉化為markdown格式。nOCR-Free多模態大模型端到端的智能解析,主要是以數據驅動的多模態大模型。nPDF-parse對于一些可以直接編輯的pdf文檔,文字提取直接使用PDFParser的效果免費下載資料掃碼關注公眾號免費下載資料頁碼:6/161會比用OCR模型的效果更好。OCR-PIPELINE方案具有以下優點:其一,能夠獲取boundingbox信息、版式標簽信息等,并進行相應處理;其二,模塊靈活,可單獨做優化;其三,支持CPU離線部署,對于垂直場景可研發版式分析的輕量模型;其四,支持掃描版文檔。然而,該方案也存在缺點:OCR鏈路依賴于場景數據,現在大部分是采用目標檢測的方案去做版式劃分,導致泛化性較差;另外,精度不高,在版式分析、表格解析、段落合并等環節均有改進空間;第三,CPU環境下速度較慢,涉及模塊眾多,整體速度較慢。OCR-FREE方案利用近期開源的OCR大模型olmOCR和mistralORC等,端到端地解析出markdown格式,為模型做預加工。盡管模型官方宣稱效果很好,但實際測試結果顯示欠佳。這種方案的缺點也很明顯:首先不支持區域分塊,不輸出boundingbox信息;第二,不支持CPU離線部署;第三,速度很慢,消耗大量GPU資源;第四,免費下載資料掃碼關注公眾號免費下載資料頁碼:7/161部署成本高,針對長文本情況,顯存占用大;第五,存在幻覺問題,容易出現多字少字等和原文不一致的情況;第六,對于比較復雜的文檔無法做截圖存儲。PDF2TEXT方案,利用規則驅動的工具,速度快、效果好,在可編輯場景下比OCR的文字信息識別更為準確。其缺點是不支持掃描版本文檔,并且對圖片和表格等處理效果欠佳。OCR-PIPELINE中最關鍵的就是版式分析。版式分析是一個目標檢測任務,用于對文檔的區域進行劃分,核心在于標簽的定義,包括正文、標題、圖片、圖片標題、表格等等。目前表現較為出色的是上海人工智能實驗室的DocLayout-YOLO,在數據的標注和多場景的數據上面做了大量工作,使泛化性得到了有效提升。版式分析模型與文檔類型強相關,高度依賴于場景數據的標注,以及標注數據的多樣性,在后面的文檔恢復或markdown轉錄時,需要取舍一些標簽,所以要有對粒度的控制。免費下載資料掃碼關注公眾號免費下載資料頁碼:8/161去年四月份,我們也開源了一些版式分析的模型,主要針對中文論文、英文論文、中文研報和教材這四個領域,在這四個場景下進行了細粒度的標注,訓練出了一6.23MB,所以在下游垂直場景中速度很快。版式分析的大部分工作集中在標注環節,而標注高度依賴于對業務的理解,業務需要控制標簽的力度,然后我們進行相應的數據標注,以滿足垂直領域場景的要免費下載資料掃碼關注公眾號免費下載資料頁碼:9/161文檔解析中的難點之一是表格解析,分為多線表、缺線表、無線表三種類型。受限于傳統CV的方法,存在多尺寸、分辨率低、跨頁處理等多種情況,而可訓練的場景數據極為稀缺。傳統CV方法主要檢測cells和tablestructure,將OCR的文本和表格的結構進行match,算其間的IOU閾值,然后merge,最后去做表格的重建,輸出excel格式或者是html格式,html兼容markdown語法,所以在markdown里面可以很好地展示。關于端到端的形式,我們也做了一些自己的工作。端到端的一個缺點就是非常消耗資源,多模態大模型基于數據驅動,我們研究發現端到端的數據極難構造。我們通過一些小模型結合合成數表格數據的方法,訓練了一個端到端的7B左右的多模態表格解析模型。該模型的輸入為表格截圖,轉成html。其缺點是存在嚴重的幻覺問題,對于一些特定樣例的表格,效果并不理想。頁碼:10/161對于一些可編輯的pdf表格,可以利用文本自身信息進行加速。上圖右側列出了一些常用的開源的表格解析模型,及其對比效果,目前最好的是百度開源的SLANet-plus模型表現最佳,其在TEDS評價指標上取得了較好分數。實際測試表明該模型也是對有線表格解析得比較好。我們自研了一些公式解析模型,將公式截圖轉成LaTeX語法,markdown可以支持LaTeX公式渲染。該工作在ICPR2024的多行數學表達式識別任務中獲得了冠軍。免費下載資料掃碼關注公眾號免費下載資料頁碼:11/161我們的方案基于傳統的VisionEncoderDecoder模型架構,采用預訓練加微調的方式,在訓練過程中采用早停機制來防止過擬合。擬合目標是ExactMatch(精確匹配)和EditDistance(編輯距離)后期我們對上述工作進行了改進,發表了一篇論文,提出層次細節聚焦識別網絡(HDNet),已被ICASSP接收。改進主要包括一些預訓練,以及更科學的評估。對于復雜的層級的公式,類似多模態預訓練中的動態分辨率方法,其是隨機crop圖片,而我們是更加復雜的數據公式,按照層級的方式對數據公式進行劃分,起到類似數據增強的效果。通過這個方法取得了比較好的成果,在Fair-CR評價指標上達到了0.963。而且模型的參數量較小,約300m,參數量上低于業內相關模型。免費下載資料掃碼關注公眾號免費下載資料頁碼:12/161圖表解析方面,圖表中包含數值圖、柱狀圖、餅狀圖等,核心是輸出圖表摘要,或解析出json數據,便于后續進一步渲染。或通過解析出的json_dict,進行編輯或可視化。圖表中的另一個重要部分是流程圖,目前大多是將其轉成可渲染的markdown格式。傳統方案主要是采取CV的目標檢測分割方案,現在依靠多模態大模型,可以端到端地輸出流程圖的Mermaid格式,做進一步的渲染。免費下載資料掃碼關注公眾號免費下載資料頁碼:13/161去年我們針對多模態大模型在流程圖上的能力做了一些評測。評測發現GPT4o模型在流程圖解析上僅得到56.63分,仍存在很大的優化空間。在開源模型中,Phi-3-Vison多模態大模型獲得了一個比較高的分數,該模型主要在訓練的數據上進行了一些預訓練。這也說明多模態大模型目前還是數據驅動的模式。文檔解析中的一個核心問題是閱讀順序的排列,對文檔的還原或轉換為markdown起到了樞紐作用,上接布局分析,下接markdown的轉換。之前主要是采用基于規則的方案,按照bbox排序,這種方式簡單,但效果一免費下載資料掃碼關注公眾號免費下載資料頁碼:14/161般。CV的方法其實也屬于基于規則的方案,主要是XYcut,按從左到右、從上到下的閱讀順序。現在出現了基于語義的方法,主要工作是LayoutReader。它可以對劃分出來的區塊去做相應的排序,但是它有一個缺點是高度依賴于標注數據。最新的工作是DLAFormer,它是一個端到端的模型,主要是將閱讀順序和版式分析建模成的關系預測任務。通過版式分析可以得到文檔的標題,最后通過閱讀順序還原成markdown的時候可以得到其層級關系。免費下載資料掃碼關注公眾號免費下載資料頁碼:15/161下面介紹Doc2ToC工作。在獲取標題之后,可以構建目錄,得到章節信息,建模成parent-of的關系。這一工作非常依賴于版式分析中對標題的定義,標題的粒度需要定義成多級的標題,標注方式非常不統一,我們發現每個版式里面可能標題和段落標題的字號或字體都相近,這可能對后續的版式識別模型影響較大。第二,通過PDFParser這種工具可以獲取一些字體的信息,但是基于深度學習的模型或者OCR的模型很難獲取字體信息。第三,基于語義的方法,可通過一些BIO標注去計算title和段落之間跳轉的概率,拿到標題和段落之間的分界點,也可進行段落標題的識別。第四,融合位置和語義的關系,有一些工作是去預測其間的父子關系,這種方式速度可能較慢,標注工作量較大。免費下載資料掃碼關注公眾號免費下載資料頁碼:16/161Figure2meta這個工作是針對文檔解析中圖表meta信息的抽取。文檔解析以后,得到很多表格和圖表,對于圖表可進一步細分,通過路由的控制去分成流程圖、數值圖、普通圖等類別。分類之后做進一步的信息抽取,抽取出<figure,title>、<figure,reference>、<figure,boudingbox>的信息,用于圖表的渲染。實現思路為,對于簡單的布局,可以利用bcaption/title信息,通過正則或版式分析模型對其boudingbox按就近原則進行匹配。也可進行有監督模型訓練,比如用bg去索引段落中的語義信息,按相似性進行綁定。類似地,<figure/reference>也可通過一些啟發式規則獲取boudingbox,結合閱讀順序和就近原則進行匹配,也可進行有監督的分類。<figure,boundingbox>,可以直接獲取版式分析結果,因為版式分析可以得到其坐標信息。<figure,type>,可訓練一個分類模型,將圖片細分為流程圖、數值圖、普通圖等類型。免費下載資料掃碼關注公眾號免費下載資料頁碼:17/161最后可得到json數據。DocChartSearch&Recmmend工作主要是在一些應用場景下,基于圖片構建一些API去做圖表的檢索,以及以圖搜圖、文圖搜索等一些具體的下游任務。文檔解析中有層級圖的概念,即DocGraph。通過布局分析,進行區域間關系的抽取,如一個表格與其相應的標題、來源、引用段落、所屬章節之間的關系,以及層級邏輯關系。代表性工作包括DocStruct、HRDoc、Detect-Order-Construct等,主要是免費下載資料掃碼關注公眾號免費下載資料頁碼:18/161構建層級圖。在文檔進行表述的時候,圖表會作為一個鏈接元素,引用到文檔的描述中,在RAG中,經常會召回一些chunk,可能提示“如表所示”,但此時圖可能已經丟失,將召回的chunk傳遞給多模態大模型,模型可能無法回答。我們可以做一些類似于實體鏈接中的entity-linking的工作,將圖和描述進行link。整個文檔解析鏈路非常長,誤差會一步步傳播。在應用場景中,用戶可能既要求快又要求準。上圖中列出了我們在實際的文檔解析研發過程中遇到的一些問題及免費下載資料掃碼關注公眾號免費下載資料頁碼:19/161其解決方案,供參考。多模態圖索引構建與多模態檢索生成流程多模態圖結構索引的構建流程如上圖所示。多模態數據源通過一個預處理模塊,分配到不同的子模塊。文本模塊,可進行文本處理,比如傳統的NLP任務,或者利用大模型進行分詞、實體識別;圖像處理模塊,進行特征抽取或者目標檢測;視頻處理和圖像類似,一幀幀的視頻可以看作一張張圖片,進行相應的處理;音頻處理模塊,對語音轉文本。之后,跨模態進行關聯,構建圖結構。圖結構的構建包括節點的創建,如實體、圖像、視頻片段;邊關系的建立,主要是時空、語義和跨模態之間的關系;最后存儲到圖數據庫,如Neo4j、TigerGraph。嵌入部分主要是對抽取出的特征進行相應的嵌入,比如圖像可采用ViT等嵌入模型,視頻可使用3D-CNN等。之后進行跨模態的對齊,包括圖片和文本的對齊、文本和視頻的對齊,以及文本和音頻的對齊等。最后,聯合索引,采用FAISS、免費下載資料掃碼關注公眾號免費下載資料頁碼:20/161Milvus等向量數據庫。多模態檢索的流程如上圖。先對文檔做版式分析,獲取每個區塊的一些元素,做chunk的劃分。傳統RAG鏈路中,對于文本就直接用文本,對表格和圖片進行summary,最終得到的仍是文本模態的信息,進行embedding操作后存儲到向量數據庫,用于后續檢索。更高維的形式是多模態嵌入,對文本模態做文本的嵌入,對表格和圖片分別做表格和圖片的嵌入,最后轉儲到向量數據庫中。免費下載資料掃碼關注公眾號免費下載資料頁碼:21/161檢索生成的流程為,用戶輸入純文本形式或文本加圖片形式的query,首先對query進行解析,分為文本解析、圖像解析、語音解析,形成多模態檢索。檢索有多種檢索策略,包括圖模式匹配的子圖檢索、向量相似度檢索、跨模態關聯檢索等。之后對檢索出來的結果進行融合,做相關性排序,再送到大模型中做生成。圖文多模態檢索可以利用多模態大模型,結合prompt的構造進行拼接,然后生成檢索的答案數據,之后對答案數據進行標準化處理或引文來源的標注。上圖中列出了多模態GraphRAG的主要優勢,包括更細致的檢索、更高的準確性和可解釋性等等。知識圖譜解決chunk之間關聯以及細粒度問題免費下載資料掃碼關注公眾號免費下載資料頁碼:22/161傳統RAG方法存在諸多問題,比如chunk的模式會導致召回大量噪聲片段;涉及聚合、過濾、統計時向量召回準確性低,因為向量模型對于數字比較敏感,所以魯棒性不強,并且大模型在數學計算方面的能力有限;傳統RAG的chunk之間彼此孤立,缺乏關聯,在跨文檔任務上表現不佳;對于答案涉及多文本塊、多文檔的問題,普通的向量召回或者ES召回能力有限;用大模型進行任務規劃時,不確定性較高,在特定可控生成任務上表現欠佳;大模型改寫、推薦任務非常發散,存在幻覺;領域語料不足,大模型跳出問答,需要學會拒答;RAG整體理解受限,文本embedding后可解釋性低。知識圖譜,通過引入專家知識,可以通過實體層級特征增強相關性,并且可以增強chunk之間的關聯。例如微軟的GraphRAG可以通過search摘要增強chunk之間的關系,從而提升相關性召回。假設已有KG數據存在,那么可以將KG作為召回信息源,補充上下文信息。此外,可將各類知識形成一個KG,提供圖視角上的embedding,以補充召回的特征。知識圖譜也是另一種形式的規則知識庫,可作為規范引導大模型進行可控生成。利用結構化知識構建場景圖免費下載資料掃碼關注公眾號免費下載資料頁碼:23/161譜,可以進行Cyther圖檢索。然而,構建一個高質量、更新靈活、計算簡單的大規模圖譜成本極高。在大模型的背景下,知識圖譜應具有更為廣泛的含義,并不局限于傳統的三元組形式,而是可以擴充到更深層次的關系。例如文檔領域,文檔元數據級關系圖譜,節點是各個文檔的名稱或者主題等元數據,關系為文檔之間的相似關系或者父子關系;文檔塊級關系圖譜,節點可以是各個chunk(如通過版式分析識別出的標題、段落、表格或圖片等關系是chunk之間的父子、共現、相似等關系;文檔實體級關系圖譜,節點為文檔中的特定實體類型及關系,或者關系鍵詞網絡。免費下載資料掃碼關注公眾號免費下載資料頁碼:24/161典型的應用范式主要包括:nKG-enhancedprompt;nHiQA方案(引入文檔層級結構細分召回);nLinkedinKG-RAG方案(雙層嵌入索引);nUniQA-Text2cypher的KG-RAG;nHippoRAG框架(考慮實體特異性);nGRAG方案(考慮拓撲結構);免費下載資料掃碼關注公眾號免費下載資料頁碼:25/161n微軟GraphRAG方案(集KG大成,先做實體關系的抽取,再構建社區摘);nKAG方案(將知識圖譜全盤納入到RAG范式中)。各類應用范式的代表工作如上圖所示。我們認為,知識圖譜增強大模型問答要淺投入,因為前期的知識庫構建,還有后續的檢索,整體耗時較長,且消耗大量計算資源。一些相關優化工作,如LightRAG,在GraphRAG上進行了簡化,主要去除了社區、社區摘要等環節,使整個系統更為輕量,知識更新也更快。但無論是LightRAG,還是GraphRAG,知識圖譜本身構建不準確的問題都較為棘手。免費下載資料掃碼關注公眾號免費下載資料頁碼:26/161對比傳統RAG、GraphRAG和KGQA:nRAG主要進行chunk和向量檢索,方式簡單,但精確性和邏輯性較差。nGraphRAG可進行實體關系抽取,再做社區摘要,這樣文檔語義關聯性更強,但缺點就是圖譜質量不高,邏輯性不足。nKGQA,指的是早期pipeline的KGQA的方式,要做很多細致的操作,比如query解析、實體鏈接、語義推理等,然后做原文的引用。其優點是比較精確,邏輯性較高,因為每個鏈路都需進行相應優化,生成結果可信度較高,尤其在時間和數值問答方面較為準確。缺點則是圖譜構建成本較高,信息可能有損,假設實體鏈接做得不好,可能導致鏈接實體有誤,知識缺失。此外,可讀性較差。總結而言,KG方案構建門檻高、知識稀疏;RAG方法缺少語義和邏輯關聯;GraphRAG高度依賴開放域信息抽取,會引入大量噪聲,最后用大模型進行生成,可能存在幻覺問題。頁碼:27/161掃碼關注公眾號免費下載資料文檔多模態RAG相關工作進展目前,涌現出大量文檔多模態RAG相關工作,輸入文檔截圖,通過大模型實現端到端的問答,省去了之前的OCRpipeline鏈路。下面介紹一些代表性的工作。解析式文檔多模態RAG,其核心思想是將文檔切分為頁面,再利用版式識別的方式對文檔進行各種模態元素的分割、解析、提取,然后再嵌入、檢索。主要包括三種路線:n對于文本和圖片模態直接做embedding,通過多模態的嵌入模型執行向量檢索,通過相似度搜索,將原始圖片和文本塊傳入多模態大模型去做問答的生成。此路線的核心大模型為多模態大模型。n使用多模態大模型對圖片生成摘要,將非文本模態轉化為純文本,并使用textembedding的方法做嵌入,將文本塊傳遞給文本生成模型以進行答案的生成。這里主要利用多模態大模型對圖片做摘要,使用的是純文本的大模免費下載資料掃碼關注公眾號免費下載資料頁碼:28/161textembedding以獲得嵌入表示,同時使用參考原始圖像嵌入和檢索圖像摘要,最后將原始圖像和文本塊傳遞給多模態大模型進行整合。這里用到的是多模態大模型。DocVQA式文檔多模態RAG,其核心思想是將文檔切分成頁面,不再細分區塊,直接把文檔整頁送入大模型進行VQA工作。VisRAG、M3DocRAG,均為端到端利用多模態大模型進行知識問答。免費下載資料掃碼關注公眾號免費下載資料頁碼:29/161多模態大模型RAG的實踐流程可概括如上圖所示。首先,將文檔轉成頁面,通過ColPali等工具將圖片編碼成向量數據,同時對文本進行相應編碼,之后將圖片的embedding和prompt的embedding同時輸入多模態大模型,生成問答。總結最后,對當前工作中的要點總結如下:n語料加工是RAG中的一個重要環節,占據龍頭地位,其加工的程度和質量直接影響知識問答的效果。n多模態大模型為文檔處理帶來新契機,例如可利用大模型進行端到端的處理,或是使用大模型對細分塊進行處理,還有更多潛在場景值得探索;n需要思考如何將文檔挖得好、挖得深,雖然已經有很多工具用于深度挖掘,但當前仍難以脫離人工操作,要保證質量可信,需要人進行check;免費下載資料掃碼關注公眾號免費下載資料頁碼:30/161n文檔智能因為大模型的應用而再次受到關注,但傳統的很多長尾問題還未得到根本解決;n知識圖譜要積極擁抱變化,之前的包袱太重,但不能丟,內涵要改變,要從結構、粒度、形式等多方面發展。NLP/CV/BERT等)仍具有應用價值,不可摒棄。以上即為本次分享的全部內容,謝謝大家。問答環節A1:在搭建MMOCR多模態大模型的實踐中發現,該模型對資源的消耗極大。即便是企業用戶,可能也難以具備充足資源用于部署多模態大模型。此外,多模態大模型屬于數據驅動型模型,在前期訓練階段,可能需要成百上千萬的數據才免費下載資料掃碼關注公眾號免費下載資料頁碼:31/161能訓練出一個多模態大模型。再者,關于幻覺問題,普通RAG在處理自上而下這類簡單版式時,效果或許較好,但面對包含多種元素的復雜版式,效果可能欠佳。對于簡單表格,多模態大模型能夠端到端輸出為markdown格式。然而,圖片多模態大模型無法進行截圖或定位操作。綜上所述,在資源有限的情況下,建議采用pipeline模式。A2:標題識別的準確性主要與版式識別中標簽的定義相關。其一,標題級別可定義為一級標題、二級標題、三級標題等。但在實際落地過程中發現,盡管標題定義粒度精細,采用CV方式時有時會出現漏檢情況,從而導致識別不準確。建議將標題定義為統一形式,標題分級可通過一些規則進行后處理。其二,可以訓練一個語義模型。若語義模型獲取的數據量足夠多,其具備一定的標題層級劃分能力。通過語義標記,結合相應規則的后處理,能夠實現標題分級。不過,很難保證能夠做到盡善盡美。頁碼:32/161掃碼關注公眾號免費下載資料知識圖譜與大模型雙輪驅動:金融行業智能化產品與架構的演進之路導讀:恒生作為一家專注于助力金融領域客戶實現智能化產品落地的服務機構,積累了豐富的產業實踐經驗。在協助企業落地智能化產品的過程中,我們遭遇了一系列關鍵難題,包括但不限于性價比、準確率等核心問題。同時,隨著技術的快速演進,自2019年以來,特別是大模型興起之后,金融知識圖譜領域也出現了新的發展范式。在此,我們將基于實際案例,深入分享在實踐過程中所積累的寶貴經驗,同時對新范式是否會替代知識圖譜,以及大模型如何助力解決知識圖譜先前面臨的問題展開探討。主要內容包括以下幾大部分:1.金融場景的困局與破局2.大模型技術帶來的新范式3.產品功能與設計的演進4.落地挑戰與未來變化分享嘉賓|李明明恒生電子股份有限公司AI產品經理編輯整理|李天星內容校對|李瑤出品社區|DataFun頁碼:33/161掃碼關注公眾號免費下載資料金融場景的困局與破局1.聚焦金融+AI領域恒生知識圖譜團隊在過往實踐中,成功搭建了如下幾類重要應用場景:n證券交易行為畫像:該場景旨在通過股票與債券交易行為構建知識圖譜,實現對相關機構的交易行為的精準刻畫。恒生憑借與眾多交易所級別金融機構的緊密合作,深入洞悉金融行業交易行為,此外還引入諸如產業鏈、輿情等信息,在此基礎上構建了證券交易行為畫像。其中的挑戰在于,圖譜本身并非一種對時間序列數據敏感的工具,而證券交易行為的場景往往需要對過往交易數據進行加工。在大模型興起后,我們對這類場景進行了優化。n投研投顧:即基于產業鏈上下游進行產業分析與傳導。主要聚焦于國內權益市場,特別是債券違約預警與發現的場景。n信用分析:基于企業圖譜、產業鏈圖譜進行多層事件風險傳導、滲透評估和免費下載資料掃碼關注公眾號免費下載資料頁碼:34/161風險影響面估計。如兩年前恒大違約事件,在此之前我們已經基于圖譜進行了事件的發現,并對違約可能影響的金融機構,以及后續可能衍生的行為進行了分析與預測。信用分析工作的核心就在于解決此類重大風險事件的前瞻性評估與連鎖反應預測問題。n反洗錢:即基于反洗錢報送的高風險用戶進行多跳關聯。當前國內數據不夠完善,證券基金領域相對于銀行領域而言比較落后,機構之間缺乏數據共享。當前主要在高風險客戶應用知識圖譜。中國人民銀行反洗錢交易中心要求各機構上報高風險用戶,在一定領域內可以共享,如何利用上述信息開展多跳關聯是我們的關注重點。2.金融知識圖譜平臺基于上述場景,我們構建了金融知識圖譜平臺。該平臺與常規圖譜產品的主要差別點在于:n恒生并不涉足底層圖數據庫存儲層研發,而是致力于兼容主流圖數據庫廠商,如為用戶提供D2R(數據轉關系)工具,用于快速將結構化數據轉化為圖免費下載資料掃碼關注公眾號免費下載資料頁碼:35/161數據并完成導入。同時,還提供定時任務工具與任務調度框架等。n聚焦不同金融場景,如事件傳導分析、股權穿透、反洗錢等,沉淀出插件類產品或基礎類應用,提供給金融機構,作為底層技術平臺與上層應用之間的技術中間件。我們提供了底層存儲、緩存、ES檢索、圖計算的常用算法、圖譜實體關系標簽與相關參數,以及數據可視化、實體關系深度分析等工具和方案。這是曾經的一個案例——銅掌柜暴雷事件,通過事件影響傳導,針對該事件對產業鏈上下游相關系企業以及股權關系關聯企業可能產生的影響進行了定量分析。3.金融場景的困局與破局免費下載資料掃碼關注公眾號免費下載資料頁碼:36/161金融知識圖譜面臨諸多問題,從AI產品經理角度來看,困局主要在以下幾個方n用戶風險厭惡性高,可控性要求高金融機構用戶對風險的厭惡程度高,雖追求業務智能化,但當智能化表現超出其理解時,往往會質疑結果。若智能化分析與用戶認知相悖,產品經理需加以引導。因此,圖譜、機器學習等智能化應用中,可解釋性與傳導邏輯比結果更關鍵。演繹推理往往比歸納推理更受業內認可。例如在新冠疫情期間,要分析其對金融資產的影響,業務人員會按照之前SARS的情況進行推理,盡管SARS造成的影響范圍與新冠并不一樣。歸納推理數據不夠且可解釋性不足,給推理結果帶來了挑戰。n規則邏輯的局限性在方案落地進程中,我們期望融入更多金融知識。然而,金融知識的邏輯梳理、維護及更新工作,投入產出比極低。實際操作里,既沒人愿意承擔這項免費下載資料掃碼關注公眾號免費下載資料頁碼:37/161工作,維護質量也難以保證。大模型的出現,有望在一定程度上彌補這一短板。另外,由于不同機構、不同行業、不同規模,乃至同一金融機構的不同業務,對金融知識的理解各不相同,規則存在極大局限性,所以不存在通用的完美解決方案。當下,我們認為性價比最高的方案當屬DeepSearch等,這類面向AI的優化搜索方式,能更好地感知外部世界,也是未來方案落地更合理的切入點。n數據表示的局限性知識圖譜的核心是三元組,是一種對已有知識的壓縮。例如,同樣是債券交易,但交易目的不同,如資產配置或短期套利,不同目的會有不同的預測和傳導風險,而圖譜三元組難以記錄這些屬性,會導致大量信息損失,進而致使圖譜在推理過程中暴露出局限性。上述問題導致金融知識圖譜產品愈發偏向于另外一種規則引擎。大模型技術帶來的新范式1.新范式:KG+LLM的一些方向免費下載資料掃碼關注公眾號免費下載資料頁碼:38/161大模型的興起為知識圖譜帶來了新的契機。nLLM輔助圖譜構建在知識圖譜的構建、知識表示、推理及運用過程中,大模型相較于傳統自然語言處理(NLP)方法展現出更高的性價比。借助大模型的提示(prompt)功能,能夠高效完成實體關系抽取任務,已實現對傳統NLP算法的替代。不僅如此,大模型還具備挖掘隱含知識的能力,即便是那些處于長尾分布的小眾、低頻知識,也能精準發現。nLLM輔助圖譜推理其一,利用大模型可以實現知識的動態更新,尤其是對推理邏輯的實時優化;其二,演繹推理可有效填補因數據局限性而導致的歸納推理的不足。n基于圖譜技術的RAGGraphRAG/LightGraphRAG,借助圖結構可增強對復雜關系的建模和推理能力,但由于性價比較低尚難以在金融領域普及。KAG通過結構化圖譜與知免費下載資料掃碼關注公眾號免費下載資料頁碼:39/161Think-on-Graph,通過識別與問題相關實體,檢索相關三元組進行探索推理,生成多個推理路徑,直至收集到足夠信息回答問題或達到最大深度。盡管三個方向都有嘗試,但目前比較成熟的是前兩種方式。2.質疑陸奇老師層提出,知識圖譜真的不行。對此我們也展開過相關討論。用知識圖譜做大模型,是不是馬拉火車?在2020年前,普遍認為圖譜技術會引免費下載資料掃碼關注公眾號免費下載資料頁碼:40/161領AI發展,但現在人們則質疑LLM是否一定要套圖譜的外殼。產品功能與設計的演進AI或大模型在金融領域落地,需要考慮三個核心因素:準確率、成本、速度。以如下三個問題為例,針對不同場景,大模型和知識圖譜各有其優勢。問題1:螞蟻和恒生電子的關系是什么?這種問題使用純LLM的方式更優,更新圖譜性價比不高。大模型基于外部信息檢索的結果更符合業務人員認知,且可以避免知識更新不及時帶來的問題。問題2:反洗錢系統中張三和李四的關系是什么?在這個問題中,張三和李四代表行業專有名詞或公司內部數據。針對這種專業知識的多跳關系搜索,采用圖譜方案更優,無論速度還是專業性與精確度上都更具優勢。問題3:機構A和XXX債券的關系是什么?或者機構A、機構B頻繁買入XXX債券說明了什么?這種既涉及通用知識又涉及私域知識的情況下,大模型頁碼:41/161和圖譜結合的方式則更為有效。知識專業性越強、私域化和時效性要求越高,同時企業圖譜完備度越高時,更偏向采用圖譜產品;反之,則更偏向選擇大模型。當前,大模型的適用領域持續擴展,而知識圖譜的應用空間正在被不斷壓縮。基于上述思考,我們對產品做了一些改變,上圖中橙色部分,如圖數據庫、圖譜的查詢分析算法等還是以圖譜為主;紅色部分,如信息抽取、三元組表示和圖譜構建等,則轉向LLM為主;藍色部分,如知識推理等,根據場景與客戶情況進頁碼:42/161行區分。落地挑戰與未來變化1.落地挑戰n有得必有失三元組本身就是知識的有損壓縮,并不是所有內容都適合進圖譜。GraphRAG和LightGraphRAG如果能夠將適合的內容抽進圖譜,其落地才能更好地推廣。n圖譜知識的可維護性圖譜是沒有時間維度的,金融領域的數據如何更快更好地進行維護是一大挑nChatBot的挑戰在ChatBot的應用場景中,面臨的挑戰之一是如何精準判斷:哪些問題需要借助KG能力來解答,哪些問題則無需KG便可處理。n是否有銀彈金融業務和人遠遠比IT解決方案復雜,因此沒有統一的解決方案可以解決所有問題。nKG與LLM更深地融合利用圖譜輔助LLM訓練,以及基于圖學習的Adapter可訓練結構等,是值得探索的領域。2.未來變化免費下載資料掃碼關注公眾號免費下載資料頁碼:43/161n圖譜回歸到自己更適合的領域圖譜未來可能作為智能體的一部分,與API、結構化數據庫、RAG結合, 成為Agent長短記憶體和Tools的一部分,在合適的情況下讓大模型調用,讓圖譜回歸到自己更適合的領域。nAI應用一定是ChatBot嗎?當前,大模型應用更多以問答形式呈現。而在2B領域的非即時性任務中,知識圖譜可以發揮重要作用。因此,探索非ChatBot形式的應用,能夠更好地釋放知識圖譜的價值。n特定的私域數據場景依舊需要圖譜多跳計算、社團分析、最短路、可控傳導等領域,仍然要依靠知識圖譜。n讓子彈飛一會兒所謂的統一的框架、解決方案還在路上。頁碼:44/161掃碼關注公眾號免費下載資料融合知識圖譜與大模型的中醫臨床輔助決策體系導讀:隨著信息技術的發展,現代醫學逐漸向數字化和智能化方向邁進。尤其是在中醫藥領域,通過將傳統的中醫療法與先進的計算技術相結合,不僅可以提高診療效率,還能增強診斷的準確性和個性化治療方案的有效性。本報告旨在探討如何利用大模型與知識圖譜構建一個高效的中醫臨床輔助決策體系,并詳細說明其在實際應用中的優勢及未來發展方向。主要內容包括以下幾個部分:1.政策背景與行業現狀2.核心技術體系構建3.臨床應用與成效分享嘉賓|文天才博士中國中醫科學院中醫藥數據中心教授級高工編輯整理|Kathy內容校對|李瑤出品社區|DataFun政策背景與行業現狀1.政策背景免費下載資料掃碼關注公眾號免費下載資料頁碼:45/1612024年7月19日,國家中醫藥管理局和國家數據局聯合發布了《關于促進數字中醫藥發展的若干意見》,意見中明確指出用3-5年時間推動大數據、人工智能技術與中醫藥全鏈條深度融合,重點推進中醫藥數據共享與流通,構建數字中醫藥生態體系,支撐中醫藥現代化與國際化。2021年發布的"十四五"規劃綱要中也提出了關于智慧醫療的一些重要指示,強調要加快科技創新與數字化產業升級,構建智慧醫療等重點領域生態體系,建設中醫藥科技支撐平臺,加強中醫藥文化傳承與國際傳播。2022年,國務院辦公廳印發《"十四五"中醫藥發展規劃》,提出建設智慧醫療、智慧服務、智慧管理“三位一體”的智慧中醫醫院,持續推動"互聯網+醫療健康"覆蓋診前、診中、診后全流程,鼓勵研發中醫辯證論治智能輔助診療系統(CDSS)。2.行業現狀中醫藥行業早已告別往昔僅靠鶴發童顏的老中醫通過號脈、觀察舌苔來診療的傳統模式,步入高度信息化的時代。當下,人工智能的深度融入更是為其發展按下“加速鍵”。免費下載資料掃碼關注公眾號免費下載資料頁碼:46/161然而,快速發展的進程中也面臨諸多痛點:n數據標準化和互操作性:中醫的診療數據和西醫的數據標準有很大不同,數據標準化程度較低,導致在整合和共享數據時存在困難。中醫診療中的“四診”(望、聞、問、切)數據難以標準化和數字化,尤其是主觀性較強的部分。n技術支持不足:中醫藥的理論體系復雜且獨特,需要特定的算法和模型來進行智能診斷和治療方案推薦。現有的人工智能和大數據技術在中醫領域的應用還不夠成熟,缺乏針對性的技術解決方案。n中醫藥知識庫建設:中醫藥的理論和實踐知識龐大而分散,缺乏系統化的數字化知識庫。現有的中醫藥文獻、案例和臨床數據的數字化和結構化工作量大,進展緩慢。n用戶體驗和系統易用性:智能診療系統的界面設計和操作流程需要符合中醫診療的習慣和特點,以提升用戶體驗。系統的易用性和可靠性直接影響醫生和患者的使用意愿和效果。核心技術體系構建為了推動中醫藥現代化,眾多科研團隊致力于將現代科學技術,特別是信息技術應用于傳統中醫領域。這一努力旨在通過系統化、科學化的手段提升中醫診療的有效性和準確性。1.中醫學的信息學原理為了推動中醫學與信息學的融合發展,中國中醫科學院劉保延教授和文天才教授免費下載資料掃碼關注公眾號免費下載資料頁碼:47/161針對該領域進行了深入地研究,并撰寫了一篇題為《從信息科學與物質科學及其范式認識中西醫體系的科學原理》的文章,于2023年7月在《科技導報》上作為封面文章發表,并在同年11月被權威雜志《新華文摘》全文轉載,本文內容為本報告相關工作提供了理論和方向支撐。本文深入探討了中醫學與信息學之間的關系,提出了中醫學本質上是一門信息科學的觀點:醫者在中醫理論指導下和臨床經驗的約束下,圍繞著幫助患者解除病痛這一目標,利用自己的感官望聞問切,有目的的收集患者的臨床表現及其相關信息,將其記錄下來,就形成了數據;進一步用原有的信息如中醫病因、病機、病位、病勢等來理解已收集的數據,形成初步認識,就將來自患者的數據通過分類轉變成了信息;再利用自己所掌握的疾病、證候等知識等做出判斷,形成診斷結果,就將信息轉換為知識,進一步依據診斷結果、結合自己臨床經驗和所掌握的干預手段提出診療方案和處方用藥,這就將知識進一步轉變為智慧。可見辨證論治的信息轉換是在醫患交互的過程中,在中醫藥已經構建的知識體系的基礎上,利用人的信息器官在信息技術支撐下所實現的。免費下載資料掃碼關注公眾號免費下載資料頁碼:48/161n中醫診療過程模型化信息采集:通過“望聞問切”獲取患者體征癥狀信息。信息處理:醫生基于經驗與知識進行辨證分析,判斷病因、病機、病位、病知識應用:制定治則治法,開具方藥并觀察療效反饋。n中醫科學原理闡釋中醫診療本質是信息感知、處理與決策的過程,與現代信息科學范式高度契醫生作為“人肉計算機”,通過感官采集數據,大腦進行信息加工與知識轉中醫理論(如《黃帝內經》《傷寒論》)是歷代醫家經驗的知識化總結。現代技術(知識圖譜、大模型)可系統化構建中醫知識體系,實現經驗傳承與創新。為了提升中醫藥領域的科技能力,文天才教授帶領科研團隊正在利用現代信息技術(如大數據、人工智能、知識圖譜等開展了一系列工作,包括中醫智慧診療、智慧健康管理、智慧科研。2.大模型+知識圖譜助力中醫診療盡管當前的大模型已經能夠學習到大量公開的知識,但由于其知識較為寬泛并缺乏專業領域深度知識思考和因果推理能力,無法為診療過程提供精確的專業指導。因此,在中醫診療過程中,除了使用大模型外,還需引入諸如知識圖譜等規則化知識來增強模型診斷的精準度和可靠性。以模擬醫生問診過程為例,當患者描述癥狀(如腰酸腿痛)時,大模型可能會初免費下載資料掃碼關注公眾號免費下載資料頁碼:49/161步推測可能是腎虛引起的問題,并進一步詢問相關癥狀(如夜間盜汗、尿頻尿急)。然而,這樣的推理過程可能存在不確定性或“幻覺”。通過結合知識圖譜,可以為大模型提供結構化的知識支持,使其在推理過程中更加精確。最終,大模型可以結合知識圖譜實現患者的證候診斷,并據此提出更為準確的治療建議。中醫的知識體系可以采用知識樹或知識圖譜來表達(模式層)。例如,一個疾病可以包含多個證候,因為疾病是對一種“病”全生命周期的概括,而證候是“病”在某一階段的特征總結;證候又可表現為多種癥狀,一個證候可以對應一個治法治則等等。當面對具體患者時,則可以將模式層轉換為數據層。例如,糖尿病腎病的一種證型為脾腎陽虛,而脾腎陽虛則可以表現為水腫、腰膝酸軟、面色蒼白和乏力等。這種結構化的知識表示方式非常適合用知識圖譜的形式來組織和存儲,以便于后續與大模型結果進行推理。免費下載資料掃碼關注公眾號免費下載資料頁碼:50/161此外,還可以構建更深層次的認知圖譜,通過為節點和邊添加權重來反映不同信息的重要性,從而提高推理精度。通過上述工作,文天才教授帶領團隊構建了中醫藥診療知識庫。該知識庫不僅涵蓋了具體疾病的治療方案,還包括典籍術語、名醫名家的診療經驗等多層次的知識。鑒于醫學領域的嚴謹性,團隊將所有知識按照證據級別分為三級:一級知識包括指南、教材、專家共識等;二級知識則涉及名醫的臨床經驗和專業書籍;三級知識則涵蓋古籍文獻等。這種分級有助于確保診療建議的科學性和有效性。結免費下載資料掃碼關注公眾號免費下載資料頁碼:51/161合大模型相關技術與中醫專屬知識庫,為中醫診療智能化應用提供支撐。臨床應用與成效1.平臺核心功能最終,在大模型和知識圖譜的支撐下,團隊構建了包括智慧問診、智慧辯證和輔助開方三大功能的中醫臨床輔助決策平臺。智慧問診借助智能語義技術和邏輯化疾病知識集,感知病歷文字,推薦相關癥狀,減少問診遺漏;智慧辯證基于邏輯化疾病知識集,通過智能算法結合多方面信息,推薦診斷結果,降低漏診誤診;輔助開方依據中西醫結合診療知識集,關聯患者多項信息,為不同科室智能推薦最佳中醫診療處方。免費下載資料掃碼關注公眾號免費下載資料頁碼:52/1612.應用場景示例在實際應用中,可將上述知識圖譜和大模型的能力以API方式嵌入到醫院現有的HIS系統中,使得醫生能夠在日常工作中便捷地使用這些工具。例如,當醫生輸入患者的癥狀后,系統能自動推薦相關的癥狀和可能的疾病類型和分析并推薦最有可能的診斷結果,并給出個性化的治療方案。這不僅可以提高診療效率,還可以通過知識共享提升基層醫療服務的質量。頁碼:53/161現在,團隊還接入了最新的DeepSeek大模型,同時結合知識圖譜和醫學推理私有模型,充分發揮私有小模型的精確性的優勢和大模型處理模糊信息的優勢,使臨床服務能力進一步提升。目前,該平臺不僅支持結構化數據的處理,還可以解析圖像數據。這使得系統可以更全面地分析患者的病情,提供更為精準的診斷建議。此外,為了保證大模型生成處方的合規和安全,團隊還建立了包含7萬余種西藥、4萬余種中成藥和8千余種中藥的數據庫,并在此基礎上構建了涵蓋17大免費下載資料掃碼關注公眾號免費下載資料頁碼:54/161類300余萬條規則的方劑審查規則庫,該規則庫不僅包括中藥之間的“十八反十九畏”等規則,還包括了西藥聯用、中西醫藥聯用審查規則。同時,考慮到兒童、老年人、運動員等特殊人群的需求,規則庫中特別加入了針對這些群體的安全用藥指導,從而為模型推薦處方進行最后把關。3.科研成果作為一支國家級科研團隊,文天才教授團隊在既往科研工作中形成了大量軟件、專利、獎勵、論文、著作等成果。免費下載資料掃碼關注公眾號免費下載資料頁碼:55/161頁碼:56/161頁碼:57/161頁碼:58/161未來,團隊也將秉持開放合作的態度,為中醫藥行業的數字化、智能化轉型注入持久動力,開拓更為廣闊的發展天地。頁碼:59/161掃碼關注公眾號免費下載資料智譜共融:大模型驅動的知識圖譜范式重構與演進路徑導讀:在人工智能領域,隨著大模型的迅速發展,其對知識圖譜的作用引發了廣泛關注。知識圖譜作為一種結構化的知識表示方式,能夠有效增強大模型的推理能力和可解釋性,彌補其推理能力單一和幻覺問題。在數據驅動與知識驅動的結合中,知識圖譜提供了一種可控、可解釋的方式,幫助大模型實現更高級的智能。本文將深入探討知識圖譜與大模型的深度融合路徑,包括提示工程、模型微調、檢索增強、推理協同等方面的應用,通過這些融合,將有助于構建下一代可信的智能系統,為實現通用人工智能奠定基礎。今天的分享會圍繞以下三個方面展開:1.KG+LLM概述2.KG+LLM的深度融合3.應用與展望分享嘉賓|王昊奮同濟大學OpenKGTOC輪值主席特聘研究員編輯整理|莫觀德內容校對|李瑤出品社區|DataFun免費下載資料掃碼關注公眾號免費下載資料頁碼:60/161KG+LLM概述人工智能的發展歷程從早期的專家系統到統計學習、深度學習,再到如今的大模型,始終是數據驅動的。1.實現數據智能的兩種方式實現數據智能有兩種方式,即專家系統與統計學習。二者在數據來源、知識表示、應用場景等方面存在顯著差異,同時也面臨不同的瓶頸。專家系統以符號知識為核心,依賴專家經驗對多源異構數據進行人工治理與形式化組織。數據來源多樣(如文檔、規則庫等但形態復雜且治理困難。專家需將隱性知識(如經驗、邏輯規則)轉化為機器可理解的符號化表示(如規則樹、知識圖譜這一過程面臨兩大痛點:n知識外化困難:專家知識高度隱性且難以結構化表達,導致知識體系龐雜且更新緩慢;n信息損失嚴重:符號化過程易丟失上下文語義與關聯性知識,僅能保留顯性邏輯片段。免費下載資料掃碼關注公眾號免費下載資料頁碼:61/161專家系統的智能表現為單點推理能力,適用于邏輯鏈條長、規則明確的復雜場景(如醫療診斷、工業控制)。然而,其局限性顯著:n知識獲取成本高:依賴少數專家手動構建知識庫,周期長且難以規模化;n泛化能力弱:規則系統難以應對動態變化的場景,人機交互復雜度高。統計學習(含深度學習與大模型)以海量標注數據為基礎,通過擬合數據分布挖掘內部模式。其核心優勢在于:n特征自動化提取:深度學習通過多層非線性變換,從原始數據中自動學習高階表征;n模式內蘊性增強:大模型(如GPT、BERT)利用預訓練技術,可捕獲跨任務通用語義模式。統計學習推動了人工智能從點狀任務(如圖像分類)向面狀任務(如多模態理解)的擴展,但其仍面臨以下挑戰:n數據依賴性強:需高質量標注數據支撐,人工標注成本高昂(如RLHF階段需專業標注);n遷移與泛化不足:模型在跨領域、跨任務場景中易受分布偏差影響,需額外微調與領域適配;n推理可解釋性差:黑箱模型難以追溯決策邏輯,在醫療、法律等高可靠性場景中受限。因此,如何將數據驅動與知識驅動相結合成為關鍵。2.雙系統理論啟示與KG+LLM協同的必要性隨著推理模型的發展,雙系統理論逐漸被人們所熟知。免費下載資料掃碼關注公眾號免費下載資料頁碼:62/161雙系統理論認為人類的認知和決策過程存在兩套系統:n系統一(快思考):負責直覺和快速決策。n系統二(慢思考適合復雜計算和需要深思熟慮的任務。通過雙系統的協同,可以實現感知、認知和決策的一體化智能。人工智能的演進始終伴隨著對人類認知機制的模仿與突破。雙系統理論(DualProcessTheory)為這一探索提供了重要啟示:系統1(直覺型快思考)與系統2(邏輯型慢思考)的協同,恰與當前知識圖譜與大語言模型的融合方向不謀而免費下載資料掃碼關注公眾號免費下載資料頁碼:63/161n系統1:依托預訓練大模型的快速響應能力,借助海量先驗知識,能夠實現零樣本/小樣本學習,在模式匹配與上下文泛化方面優勢顯著。然而,單純依賴系統1,易產生“幻覺”,邏輯推理碎片化,可解釋性差。n系統2:基于知識圖譜的結構化符號推理,通過顯式邏輯鏈條,可支持復雜計算與可解釋決策,適合多跳推理與因果分析。但存在知識更新滯后的問題,在動態場景中適應性較弱,推理效率也會受限于圖譜規模。將知識圖譜與大模型結合,即神經符號AI系統,可有效緩解大模型幻覺問題,細化語義處理,增強上下文理解與邏輯推理能力。基于上述對知識圖譜與大語言模型協同重要性的理解,接下來探討如何實現二者的深度融合。KG+LLM的深度融合:如何結合KG增強LLM的推理能力為實現KG+LLM的高效協同,當前技術探索聚焦于五大方向。免費下載資料掃碼關注公眾號免費下載資料頁碼:64/161n提示工程(PromptEngineering):通過圖譜增強提示模板,將KG結構化知識注入LLM上下文,引導生成邏輯可靠的答案。n模型微調(Fine-tuning):利用KG三元組與推理鏈數據優化LLM參數,強化其對符號邏輯的理解能力。n檢索增強生成(RAG):結合KG檢索與文本語義匹配,動態補充LLM知識缺口,抑制幻覺。n推理模型協同(LargeReasoningModel,LRM設計多跳推理引擎,協調LLM的語義解析與KG的路徑搜索能力。n知識智能體(KnowledgeAgent):構建自主化工作流,實現KG與LLM的閉環交互與動態知識迭代。下文將圍繞這五大路徑深入剖析其技術原理、實踐方案與行業應用價值。1.Prompt工程:圖譜增強提示提示工程涉及范圍廣泛,包括指令、示例、思維鏈等眾多方面。本文主題圍繞知識圖譜,因此重點介紹圖譜增強提示。接下來將介紹部分代表性工作。免費下載資料掃碼關注公眾號免費下載資料頁碼:65/161(1)KG-to-Text:將KG重寫為高效的文本表述基于知識圖譜的問答是知識圖譜領域的一項重要任務,其核心目標是從結構化知識庫中檢索并推理出精準答案,但這一過程面臨兩大瓶頸:一是自然語言問題與知識圖譜三元組(實體-關系-實體)的映射存在表述差異,繼而導致檢索偏差;二是多跳推理困難,復雜問題需遍歷多步邏輯路徑,傳統方法依賴人工規則,難以動態適配。大語言模型雖具備強大的語義理解能力,但其在KGQA任務中仍受限于幻覺生成與結構化知識缺失。為此,KG-to-Text技術應運而生,通過將知識圖譜中的結構化三元組轉化為自然語言文本,增強大語言模型對知識邏輯的理解能力。KG-to-Text增強框架通過檢索-重寫-回答(Retrieve-Rewrite-Answer)三階段實現結構化知識到文本的精準轉換。n檢索(Retrieve):基于問題語義從KG中提取相關三元組或子圖(如實體關系鏈、多跳路徑)n重寫(Rewrite):將三元組轉換為自然語言描述,保留邏輯關聯免費下載資料掃碼關注公眾號免費下載資料頁碼:66/161模板化生成:預定義句式模板(如“X的Y是Z”)微調LLM生成:訓練LLM直接輸出流暢文本(如“愛因斯坦提出的理論包括相對論”)n回答(Answer):LLM基于重寫后的文本生成最終答案,同時結合上下文語義補充細節。實現任務敏感型知識生成,針對復雜問題,通過答案引導機制動態篩選與答案強相關的三元組,避免冗余干擾。使用領域數據微調LLM,使其生成與任務目標對齊的簡潔文本。采用自迭代語料構建策略,利用LLM對生成文本的邏輯校驗能力,自動創建圖譜-文本對齊語料,解決KGQA任務中標注數據稀缺問題,實現KG-to-Text模型的閉環訓練優化。(2)KGStructuresasPrompt:結合圖譜結構KGStructureasPrompt將知識圖譜的拓撲關系編碼為提示模板,提升小模型的推理能力,彌補其參數規模的不足。知識結構提示融合的核心原理為,將KG的子圖結構(如實體關系鏈、多跳路徑)轉換為文本提示,嵌入模型輸入上下文。n拓撲編碼:使用圖神經網絡(GNN)提取子圖特征,生成結構化描述;n動態提示:根據問題類型選擇模板(因果推理、實體定位等)。構建輕量化因果推理引擎:n三維評估體系參數效率:優化提示長度與模型參數量級的關系;知識泛化:驗證跨領域任務(如科學→醫學)的遷移能力;頁碼:67/161推理速度:確保實時響應(如對話場景需<500ms)。n帕累托最優邊界平衡模型性能與計算成本,動態選擇最佳提示策略(如短提示+簡單模型vs.長提示+復雜模型)上述技術可有效解決自然語言與結構化知識間的語義對齊問題,而復雜場景下的多跳推理仍需更深入的協同機制,實現可解釋的推理鏈條與動態知識融合。(3)KG-to-CoT:結合圖推理模型生成推理鏈通過圖推理模型遍歷知識圖譜中的多跳路徑(如“愛因斯坦→提出→相對論→影響→現代物理學”),生成結構化推理鏈。基于問題中的實體(如“愛因斯坦”還可以反向解析圖譜中的潛在路徑,生成可回溯的推理步驟(如“第一步:愛因斯坦提出相對論;第二步:相對論影響現代物理學”)。從而彌合大模型與知識庫的認知鴻溝,提升二者的協同推理能(4)MindMap:結合KG綜合信息免費下載資料掃碼關注公眾號免費下載資料頁碼:68/161將圖譜檢索到的子圖(顯性事實)與LLM內部知識(隱式關聯)動態結合,構建聯合推理網絡。例如,回答“愛因斯坦對量子力學的貢獻”時,圖譜提供“愛因斯坦-研究-光電效應”路徑,LLM補充“光電效應與量子力學關聯”的上下文。通過提示工程直接嵌入圖譜拓撲關系(如實體鄰接矩陣無需微調模型,實現零成本知識增強。提示工程是融合KG技術實現知識增強最簡單最直接的方式,其優勢在于無需修改模型參數。更進一步,在模型微調過程中,知識圖譜也可以發揮重要作用。2.模型微調(1)圖譜知識注入①未知知識注?(InfuserKI)將知識圖譜中的新實體/關系(如領域專有術語)嵌?LLM,避免與已有知識沖n知識探測與篩選:對?已知與未知知識,動態選擇需注?的三元組;n適配器隔離機制:在Transformer層插?輕量適配器(Adapter),僅訓免費下載資料掃碼關注公眾號免費下載資料頁碼:69/161練適配器參數,保留原始模型權重;n多任務聯合訓練:聯合優化語?模型損失、三元組關系分類損失及知識沖突檢測損失。②低資源知識注?(GAILFine-tuning)在標注數據稀缺的場景下,利?知識圖譜?成合成數據,優化模型性能。n模板化SPARQL擴充:設計多類型查詢模板(如單跳、多跳從KG批量采樣實例化數據;n對抗數據?成:基于GAIL框架,驅動LLM?成?擬真問題,結合PPO算法穩定訓練;n漸進式增強:將合成數據注?輕量模型(如T5-small),分階段優化推理能(2)圖譜推理微調在KG+LLM的深度融合過程中,?圖檢索與微調?法能夠顯著提升模型的多跳推理能?。主要包括以下?個關鍵點:免費下載資料掃碼關注公眾號免費下載資料頁碼:70/161n基于思維鏈的?圖構造:采?“ThinkStepbyStep”的?式,將復雜問題拆解為多個?問題,并檢索相關的知識圖譜?圖,從?增強推理鏈的可解釋性。在檢索過程中,模型能夠識別關鍵的中間事實,確保推理鏈的邏輯性和準確性。n優化輸??式,降低Token消耗:傳統KG的三元組表示可能存在冗余,可采?YAML或JSON等格式進?壓縮,使得輸?數據結構完整的同時減少Token數量,提?LLM的計算效率。n多層次增強(實體、關系、?圖級別實體級別,提升KG中的實體預測能?,使得檢索和推理更精準;關系級別,加強對關系的推斷能?,提?KG知識融合的深度;?圖級別,優化?圖構建,確保多跳推理鏈的完整性和?效性。通過輕量級微調(Tuning在KG?圖基礎上增強檢索效果,提?推理能?。實驗表明,子圖增強?法可使召回率提升20個百分點。?圖增強結合微調?法能夠有效提升模型在復雜推理任務中的表現,使其在多跳推理、?鏈推理任務中具備更?的準確性和召回率。(3)知識圖譜對齊免費下載資料掃碼關注公眾號免費下載資料頁碼:71/161在KG+LLM融合過程中,實現符號知識表征與隱式知識表征的對?,是提升推理能?的重要環節。顯式知識對?,通過三元組(頭實體+關系+尾實體)的模式,實現結構化知識的映射。采?對?學習(ContrastiveLearning)?法,使頭實體和關系的描述構成輸?,?尾實體的描述作為預測?標,以此促進語義對?。采用共享參數的?模型?于構建頭實體、關系實體、尾實體的語義表示,并通過正負樣本構造對?損失,優化知識嵌?。另一方面,基于包括指令、頭實體描述、關系描述在內的token輸入,讓模型學習結構化知識,預測尾實體描述,實現隱式知識的對齊。結合顯式與隱式知識對齊,微調后的模型在?成式知識推理任務上有顯著提升。相似度矩陣顯示,優化后頭尾實體的區分度顯著提?,從原本的混亂狀態變為清晰的知識結構。接下來,將圍繞知識圖譜增強檢索,以及輕量化和個性化GraphRAG技術展開免費下載資料掃碼關注公眾號免費下載資料頁碼:72/161討論。檢索增強?成(Retrieval-AugmentedGeneration,RAG)經歷了多個發展階段,從基礎檢索到復雜流程編排,不斷優化檢索效率和?成質量。其演進過程可以歸納為以下?個關鍵階段:nNaiveRAG:遵循索引-檢索-?成三步流程。nAdvancedRAG:結合檢索前優化(如查詢改寫、查詢路由)、檢索后優化(如重排、過濾、壓縮)等技術提升檢索效果。nModularRAG:對算?進行抽象和模塊化組裝,實現流程編排。在RAG的實現過程中,知識圖譜的引導至關重要。(1)圖譜增強檢索免費下載資料掃碼關注公眾號免費下載資料頁碼:73/161圖譜增強檢索的關鍵在于對問題的分解,KELDaR這一工作正是聚焦于此。基于問題復雜度分類構建分解樹(DecompositionTree),將復雜問題拆解為多步推理結構,各步驟在知識圖譜上執行原子檢索。并采用高效原子檢索策略,快速定位相關?圖,同時擴展候選子圖范圍,從而優化知識圖譜檢索效率。RGR-KBQA這項工作的重點則是結合邏輯形式減少模型幻覺問題。通過知識引導的關系鏈檢索,增強邏輯形式生成的相關性和細粒度性。并通過微調?模型,優化邏輯形式的?成與檢索的協同作?。結合對?學習(ContrastiveLearning在語義相似度基礎上優化實體和關系的匹配。在解碼階段,動態校準生成結果,提升邏輯形式的準確性與知識?致性。免費下載資料掃碼關注公眾號免費下載資料頁碼:74/161圖結構存在一些天然的優勢,例如具有更強的復雜推理能力,更好的可解釋性、知識表達與關聯性,以及更靈活的知識源集成能力,可以為大模型落地提供關鍵支撐。因此,GraphRAG已成為業界前沿探索方向,核心議題包括圖推理能力增強、圖結構化知識表示、高效的圖信息檢索以及利用圖上知識進行校驗等等。(2)輕量化GraphRAG傳統GraphRAG計算開銷?、查詢速度慢,為此,優化?案主要圍繞輕量化構建與路徑優化展開。免費下載資料掃碼關注公眾號免費下載資料頁碼:75/161第一個思路是僅構建核心圖。首先,基于KNN圖的中?性篩選核心文本塊,構建?架,減小圖規模。另外,利用文本-關鍵詞構建?分圖,將關鍵詞作為候選實體,共現關系作為知識表征,同時保留原始文本語義信息以避免信息損失。在檢索時形成雙通道形式,融合知識圖譜骨架和二分圖的局部子圖信息,以保證大模型的生成質量。另一思路是對路徑剪枝。僅索引關鍵路徑,避免對所有路徑進?索引,以降低存儲與計算成本。結合Streaming裁剪策略,基于可靠性排序,提???本情況下的?成準確性,緩解“中間信息丟失”問題。該優化?案在保留圖結構優勢的同時,?幅提升了查詢效率、計算開銷控制能?,增強了LLM?成的準確性與連貫性。(3)個性化GraphRAG個性化GraphRAG旨在通過?期記憶建模與動態記憶管理提升檢索增強?成的效果,使其更加貼合?戶的個性化需求。其中,HippoRAG2模擬了?類的?期記憶,結合個性化PageRank實現信息免費下載資料掃碼關注公眾號免費下載資料頁碼:76/161篩選與排序。通過引入短語節點和段落節點,模擬人類大腦的密集-稀疏編碼機制,從而更好地整合概念和上下文。EMG-RAG,通過分層結構定義不同類型的記憶,并實現了動態管理,提?檢索效率。利用強化學習手段,學習在圖上選擇相關記憶,動態調整記憶選擇策略,根據?戶偏好優化記憶篩選過程。4.LRM協同在GraphRAG的基礎上,DeepSeek的出現,帶來了大型推理模型的新突破,也為知識圖譜與大模型的融合提供了新的契機。DeepSeek的問世到升級過程,也伴隨著從大語言模型到多模態模型,再到推理模型的演化。免費下載資料掃碼關注公眾號免費下載資料頁碼:77/161從訓練時計算到測試時計算,使得思考問題的中間步驟成為可能,模型在回答之前會“推理”并探索可能的解決方案,因此更多復雜問題有望得到解決。(1)檢索鏈規劃在DeepSeek及其推理范式的基礎上,我們可以進一步優化RAG的檢索過程,使其更具動態性和適應性。其中,ChainofRetrieval(CoR)取代了傳統的ChainofThought(CoT使檢索和推理相結合,實現更高效的知識獲取和決策支持。免費下載資料掃碼關注公眾號免費下載資料頁碼:78/161n動態檢索策略:通過拒絕采樣?成多個?查詢和對應的?答案,并從多個候選?案中優化檢索路徑。結合貪?搜索(Greedy)、最優選擇(Best-of-M)、樹搜索(TreeSearch)等測論,提?動態檢索調整的精準度。n動態代理檢索機制:讓LLM能夠根據當前任務狀態?動決定何時檢索、檢索哪些知識、檢索多少次,形成?適應查詢機制。結合多輪檢索補充知識缺?,增強推理的完整性。nReason-in-Documents知識精煉提取?檔中的核?信息,減少冗余和噪聲,提?檢索內容的可信度。結合上下?優化推理鏈路,避免邏輯斷裂,使?成結果更準確、更具連貫性。(2)算子/實體規劃結合強化學習?法,優化算?規劃和知識圖推理,可以提升信息檢索和推理的精準度。免費下載資料掃碼關注公眾號免費下載資料頁碼:79/161n細粒度算?規劃:智能交互式推理通過強化學習建模,定義Agent-Environment-State-Action結構
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西省新余第四中學、上高第二中學2025屆高一化學第二學期期末聯考試題含解析
- 發票搖獎資金管理辦法
- 園區企業梯隊管理辦法
- 江蘇工地進度管理辦法
- 佛教用品規范管理辦法
- 農業公司戰略管理辦法
- 新疆煤礦礦井管理辦法
- 村民身份認定管理辦法
- 小學生經典古詩文誦讀活動
- 數控車床主傳動系統設計與控制研究
- 船廠安全用電培訓課件
- 《2025年CSCO腎癌診療指南》解讀
- 人教版九年級化學上冊暑假銜接講義(初二升初三)
- 跆拳道館技術崗位薪酬制度
- 無人駕駛車法規-深度研究
- 《寧晉縣國土空間總體規劃(2021-2035年)》
- 2024年度乳腺癌篩查與早期診斷課件
- 2024年食品檢驗員(高級)職業鑒定理論考試題庫(含答案)
- 工廠物品回收合同模板
- JJF 1168-2024便攜式制動性能測試儀校準規范
- 經橈動脈介入診療患者術肢并發癥預防及護理專家共識解讀
評論
0/150
提交評論