




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1節知識圖譜融合概述第2節概念層融合——本體匹配第3節實例層融合——實體對齊第4節知識融合技術前沿浙江大學計算機科學與技術學院陳華鈞、張寧豫1第六講知識圖譜融合第1節知識圖譜融合概述浙江大學計算機科學與技術學院陳華鈞、張寧豫4早期知識工程的理想是構建統一的知識庫人類知識體系復雜知識會隨時間演化同一領域內不同組織構建不同知識庫不同領域往往根據不同的需求獨立構建知識庫5不同的系統采用的知識是異構的,它們之大量的共指問題會給知識圖譜的應用造成知識融合是解決知識圖譜異構問題的有效途徑。知識融合的核心問題在于映射的生成。分析造成本體異構和實例異構的原因明確融合針對的具體對象語言異構:語法、邏輯、表達能力不匹配邏輯異構?邏輯表示不邏輯異構?邏輯表示不disjointWith有差異?Class在OWLFULL和OWL表達能力?不同語言表達能力差異?owl:Nothing,owl:Thing?采用不同的描述語言?JSONXMLOWL模型異構:概念化、解釋不匹配?概念化不匹配?概念范圍不匹配?模型覆蓋不匹配),?解釋不匹配?模型風格不匹配?建模術語不匹配知識圖譜V.S.關系型數據庫模型之間的異構問題的研究早在面向對象建模和數據庫建模領域中就已經開展了,然a.形式靈活,可擴展性好b.包含豐富語義信息,可進行推理a.缺乏有效的處理工具,大規模處理需要借助數據庫技術9b.知識圖譜不能代替數據庫,兩者互有所長9數據清洗構建的知識圖譜存在異構性知識融合是重要的預處理步驟之一數據集成不同知識圖譜可能存在重疊的知識融合多個不同來源的知識圖譜重用現有的知識合并多個知識圖譜:本體層匹配等價類、子類等價屬性、子屬性實例層匹配等價實例本體匹配(OntologyMatching)發現(模式層)等價或相似的類、屬性或關系知識融合本體對齊、本體映射知識融合實體對齊(EntityAlignment)發現指稱真實世界相同對象的不同實例實體消解、實例匹配知識融合:即合并兩個知識圖譜,基本的問題都是研究怎樣將來自多個來源的關于同一個實體或概念的描述信息融合起來。語言層面和模型層面的不匹配是導致知識圖譜異構的本質原因知識融合旨在將不同的知識圖譜融合為統一、一致、簡潔的形式,為使用不同知識圖譜的應用程序之間的交互建立互操作性。謝謝大家!第六講知識圖譜融合第2節概念層融合——本體匹配浙江大學計算機科學與技術學院陳華鈞、張寧豫本體是領域知識規范的抽象和描述,是表達、共享、重用知識的方法真實世界的模型術語集術語的含義形式化邏輯一階謂詞邏輯術語匹配方法基于字符串基于語言結構匹配方法基于字符串的方法:直接比較表示本體成分的術語的字符串結構規范化連接符正規化:正規化單詞的換行連接符等消除無用詞:如“to”和“a”相似度度量方法Levenshtein距離,即最小編輯距離,目的是用最少的編輯操作將一個字符串轉換成另一個。舉個例子,計算Lvensshtain與Levenshtein間的編輯距離:上述講Lvensshtain轉換為Levenshtein,總共操作3次,編輯距離也就是3LevensteinDistance是典型的動態規劃問題,可以通過動態規劃算法計算,具體公式如下:其中,+1表示的是插入,刪除和替換操作的代價。一種常用來比較兩個字符串的直接方法是漢明距離,它計算兩個字符中字符出現位置的不同。還可進一步精確度量兩字符串包含共同部分的比例,即子串相似度。Dice系數用于度量兩個集合的相似性,因為可以把字符串理解為一種集合,因此Dice距離也會用于度量字符串的相似性,Dice系數定義如下:以Lvensshtain和Levenshtein為例,兩者的相似度為2*9/(11+11)=0.82Jaccard系數適合處理短文本的相似度,定義如下可以看出與Dice系數的定義比較相似。兩種方法,將文本轉換為集合,除了可以用符號分格單詞外,還可以考慮用n-gram分割單詞,用n-gram分割句子等來構建集合,計算相似度。TF-IDF主要用來評估某個字或者用某個詞對一個文檔的重要程度。其中:舉個例子,比如某個語料庫中有5萬篇文章,含有“健康”的有2萬篇,現有一篇文章,共1000個詞,‘健康’出現30次,則simTF-IDF=30/1000*log(50000/(20000+1))=0.012。基于語言的方法:基于語言的方法依靠自然語言處理技術尋找概念或關系之間的聯系。內部方法使用語言的內部屬性,如形態和語法特點,尋找同一字符串的不同語言形態,如Apple外部方法術語匹配的原理核心思想:將文檔變為向量的形式,通過向量相似度實現文檔匹配本體中的概念和屬性往往含有大量的文本信息將待匹配的對象的相關文本組成成文檔的形式,再轉換為文檔向量虛擬文檔的構建概念的語言學描述:本地名、標簽、注釋匿名結點的語言學描述:前向鄰居的語言學描述概念的鄰居:主語鄰居、謂語鄰居、賓語鄰居Constructingvirtualdocumentsforontologymatching.(WWW2006)結構匹配的原理核心思想:利用本體的結構信息來彌補文本信息量不足的情況本體中的概念和屬性往往有大量相關的其他概念和屬性,組成了一種圖結構結構匹配器不采用圖匹配技術,后者代價高昂且效果不理想結構匹配器間接的結構匹配器直接的結構匹配器Anchor-PROMPT:Usingnon-localcontextforsemanticmatching.(IJCAI2001)匹配工具僅適用于小型本體,O(n2)許多應用需要匹配大型本體,如生命科學本體Matchinglargeontologies:Adivide-and-conquerapproach.(DKE2008)為什么要分塊記錄進行一一鏈接的時間復雜度為O(|M|*|N|)基于Hash函數對于記錄x有hash(x)=hi,則x映射到與關鍵字hi綁鄰近分塊排序鄰居法Canopy聚類紅黑集覆蓋法本體匹配側重發現(模式層)等價或相似的類、屬性或關系,目前已有基于術語匹配和結構匹配等方法。大規模本體匹配通常采用先分塊后匹配的方式第六講知識圖譜融合第3節實例層的融合——實體對齊浙江大學計算機科學與技術學院陳華鈞、張寧豫實體對齊側重發現指稱真實世界相同對象的不同實例與本體對齊類似規模大,關系簡單實體意義相近,不同領域的稱謂實例(Instance):知識工程領域):記錄(Record):數據庫對象(Object):知識工程領域傳統方法等價關系推理相似度計算基于表示學習的方法基于等價關系推理基于相似度計算計算特征實體標簽信息實體名、昵稱、別名人工定義特征公共鄰居、詞向量、計算相似度基于Embeddng的實體對齊核心思想:基于表示學習技術,將知識圖譜中的實體和關系都映射成低維空間向量,合并預先匹配好的實體,把兩個網絡合并為一個網絡,用單一網絡的嵌入表示進行嵌入。在TransE基礎上增加一個實體對齊損失,采用的線性轉換矩陣實現實體對齊AJointEmbeddingMethodforEntityAlignmentofKnowledgeBases先用單一網絡的嵌入模型分別訓練兩個網絡,然后用一些預先匹配好的實體訓練一個線性變換對齊兩個向量空間。先用單一網絡的嵌入模型分別訓練兩個網絡,然后用一些預先匹配好的實體訓練一個線性變換對齊兩個向量空間。MultilingualKnowledgeGraphEmbeddingsforCross-lingualKnowledgeAlignment.(IJCAI2017)在兩個異質知識圖譜之間,根據少量種子對齊實體,可以實現大量實體對齊分別學習兩個知識圖譜的表示,建立兩者映射關系Iterativeentityalignmentviajointknowledgeembeddings.(IJCAI2017)Silk是一個基于Python開發的集成異構數據源的開源框架/silk-framework/silk整體框架預處理:會將索引的結果排名前N的記錄作為候選對,進行下一步的精準匹配相似度計算:包含了很多相似度計算的方法過濾:過濾掉相似度小于閾值的記錄對OpenEA一個開源的基于Tensorflow的實體websoft/OpenEAEAKit一個輕量級基于PyTorch的實體對https://github.com/THU-KEG/EAkit知識融合歷經了蓬勃發展,如何將表示學習技術運用于實體對齊過程成為新目前缺乏專門針對實體對齊的表示學習模型,導致現有基于表示學習的實體對齊方法精度不高。人機協作可以有效提高實體對齊的效果,目前已經得到較多關注。謝謝大家!第六講知識圖譜融合第4節知識融合技術前沿浙江大學計算機科學與技術學院陳華鈞、張寧豫無監督對齊不一定都有預先匹配好的實體多視角嵌入單一模型的嵌入能力往往不足以對齊兩個網絡嵌入表示增強改進現有的嵌入表示模型并用于對齊超大規模對齊上億個節點的網絡對齊對齊問題的設定是有一些預先匹配好的實體,但是這種設定有時無法滿足,因此有不少研究者在探索如何無監督地進行實體對齊。EntityAlignmentbetweenKnowledgeGraphsUsingAttributeEmbeddings.(AAAI2019)謂詞對齊使用統一的命名方案重新命名兩個KG的謂詞,為關系嵌入提供統一的向量空間,從而嵌入學習結構嵌入屬性字符嵌入結構嵌入和屬性特征嵌入的聯合學習實體對齊EntityAlignmentbetweenKnowledgeGraphsUsingAttributeEmbeddings.(AAAI2019)由于對齊問題的復雜性,單一模型的嵌入能力往往不足以對齊兩個網絡,因此從多種視角來對齊效果會更好。Literalembedding名稱視圖關系視圖屬性視圖Multi-viewKnowledgeGraphEmbeddingforEntityAlignment.(IJCAI2019)平均不同視圖嵌入導出一個從每個視圖嵌入空間到共享空間的正交映射矩陣參與多視圖嵌入的聯合訓練,從而使多視圖彼此受益Multi-viewKnowledgeGraphEmbeddingforEntityAlignment.(IJCAI2019)現有的嵌入模型會讓度(節點的鄰居個數)相似的節點更接近對抗訓練判別器的目標是預測節點的度,生成器Semi-SupervisedEntityAlignmentviaKnowledgeGraphEmbeddingwithAwarenessofDegreeDifference.(WWW8019)實體異構實體歧義大規模匹配OAG:TowardLinkingLarge-scaleHeterogeneousEntityGraphs.(KDD2019)出版地點匹配論文匹配局部敏感哈希CN
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆江西省吉安市吉水縣第二中學化學高一下期末經典模擬試題含解析
- 甘肅省慶陽六中2025屆化學高一下期末教學質量檢測模擬試題含解析
- 名校聯盟2025年高一化學第二學期期末復習檢測試題含解析
- 沈陽社區食堂管理辦法
- 畢業年級學生管理辦法
- 農村住宅風貌管理辦法
- 河南電子票據管理辦法
- 煤礦機電設備考核體系研究
- 江西車庫管理辦法細則
- 機械加工設備PLC控制系統優化設計技術研究
- 九師聯盟2024-2025學年高二下學期7月期末質量檢測政治試題(含答案)
- 人教版八年級物理上冊《1.1長度和時間的測量》同步練習題及答案
- 安全生產執法培訓課件
- 喘息性支氣管肺炎的護理查房
- 新型電極材料成本控制-洞察及研究
- 2025年高考英語試卷(全國Ⅰ卷)(空白卷)
- 醫學影像本科教材
- 江蘇省南通市部分學校2025屆數學七下期末聯考試題含解析
- 2025年政治理論時政熱點知識試題庫(附含答案)
- 造粒機銷售合同協議
- 運動免責聲明協議書范本
評論
0/150
提交評論