第七講-知識圖譜問答_第1頁
第七講-知識圖譜問答_第2頁
第七講-知識圖譜問答_第3頁
第七講-知識圖譜問答_第4頁
第七講-知識圖譜問答_第5頁
已閱讀5頁,還剩156頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第七講知識圖譜問答浙江大學計算機科學與技術學院陳華鈞教授1NLPNLPAI&MachineInformationExtraction&KnowledgeBasePopulationSemanticSearchInformationExtraction&KnowledgeBasePopulationSemanticSearch&QuestionAnsweringDatabaseKnowledgeRepresentation&RepresentationLearningGraphDatabase&SemanticIntegration第1節智能問答概述浙江大學計算機科學與技術學院陳華鈞教授345678Das,R.,Zaheer,M.,Reddy,S.,&McCallum,A.(2017).QuestionAnsweringonKnowledgeBasesandTextusingUniversalSchemaandMemoryNetworks.ACL2017問句解析檢索排序 深度學習問句解析檢索排序 深度學習 知識圖譜問答測評數據集-QALDESWC上開展,旨在建立一個統一的知識圖譜測評基準。每年100個問題左右,從2011年開始。數據來源包括Dbpedia、YAGO和MusicBrainz;主要任務有三類<questionid="36"?ThroughwhichcountriesdoestheYenisei?DurchwelcheL?nderflie?tderYenisei?<questionid="36"?ThroughwhichcountriesdoestheYenisei?DurchwelcheL?nderflie?tderYenisei??PorquépaísesfluyeelríoYenisei??...PREFIXres:</resourcPREFIXdbo:</ores:Yenisei_Riverdbo:country}retrievethecorretheseanswer(s).French,Dutch,Romani知識圖譜問答測評數據集-WebQuestionsSimpleQuestions是一個對簡單知識圖譜問答進行基準測試的常用數據集。數據集總共包含108,442個自然問題,每個問題都與一個對應的事實配對,對應了知識圖譜中的一個三元組,訓練集、驗證集、測試集的比例是7:1:2。MetaQA是一個針對垂直電影領域的知識圖譜問答進行基準測試的常用數據集。其知識圖譜包含電影領域中的演員、導演、編劇、電影及其類型等內容,總計包含超過40典型特點是關注多跳問答,1跳、2跳、3跳的樣本大致是1:1:1。目前常見的智能問答技術包括文本問答、知識圖譜問答、社區問答(問答對)、表格問答、視覺問答等多種形式,其中,知識圖譜問答是起到各類問答核心橋梁作用的問答形式,通常會與文本、視覺、社區等問答形式混合搭配起來使用。實現人與機器之間更為自然的交互方式也是人工智能追求的終極目標之一,這涉及怎樣讓機器理解人的自然語言,以及怎樣讓機器獲取和表示知識兩個方面的問題。這兩個問題的解決仍然面臨很多挑戰需要解決。第2節基于問句模板的知識圖譜問答浙江大學計算機科學與技術學院陳華鈞教授SELECTDISTINCT?xWHERE{?yrdf:type?c.}ORDERBYDESC(COUNT(?y))OFFSET0LIMIT1?cCLASS[films]?pPROPERTY[produced]?c=</ontology/Film>?p=</ontology/producer>首先,獲取自然語言問題的POS信息其次,基于POS和語法規則表示問句然后利用domain-dependent詞匯和domain最后,將語義表示轉化為一個SPARQL模板SPARQLtemplate1:SELECTDISTINCT?xWHERE{?yrdf:type?c.}ORDERBYDESC(COUNT(?y))LIMIT1?cCLASS[films]?pPROPERTY[produced]SPARQLtemplate2:SELECTDISTINCT?xWHERE{}ORDERBYDESC(COUNT(?y))LIMIT1?pPROPERTY[films]對于Resources和Classes:對于PropertySPARQLtemplate1:SELECTDISTINCT?xWHERE{?yrdf:type?c.}ORDERBYDESC(COUNT(?y))LIMIT1?cCLASS[films]?pPROPERTY[produced]</ontology/Film></ontology/FilmFestival>?pPROPERTY[produced]</ontology/producer></property/producer><http:///ontology/wineProduced>SELECTDISTINCTSELECTDISTINCT?xWHERE{?x</ontology/producer>?y.?yrdf:type</ontology/Film>.}ORDERBYDESC(COUNT(?y))LIMIT1Score:0.76SELECTDISTINCT?xWHERE{?x</ontology/producer>?y.?yrdf:type</ontology/FilmFestival>.}ORDERBYDESC(COUNT(?y))LIMIT1Score:0.60<http://dbpedia.or模板的學習使用遠程監督的方法,支持自動識別問題答使用整數線性規劃(ILP)學習問句-答案之間的對齊。將問題分解為子句,并用模板回答每一個子句。結合子句答案獲取最終答案。模板生成-問句依存分析utterance:u=“WhichactressplayedcharacterAmySquirrelonBadTeacher?”模板生成-為問句構建查詢子圖utterance:u=“WhichactressplayedcharacterAmySquirrelonBadTeacher?”charactorcharactor模板生成-為問句構建對應查詢actoractor模板生成-問句與查詢的對齊utterance:u=“WhichactressplayedcharacterAmySquirrelonBadTeacher?”包括LP(Predicatelexicon)和LC(typelexicon)?使用distantsupervision方法構建?使用的語料:ClueWeb09-FACC1,500MWebpagesannotatedwithFreebaseentities.LP構建:?語料中:“[[AlbertEinstein|AlbertEinstein]]wasbornin[[Ulm|Ulm]]...”?KG中AlbertEinsteinbirthPlaceUlm)Lc構建:?語料中:“[[AlbertEinstein|AlbertEinstein]]andotherscientists...”?KG中:(scientiststypec)?添加scientists->c到Lc中,并添加權重,即在語料中出現的次數。示例LP和Lc片段將問題分塊,得到多個phrase,然后將問題中短語與KG對齊:下圖的下面部分是查詢子圖中的語義項,來自知識使用詞典L對齊和添加邊,出現歧義(問題歧義,詞典噪聲)使用ILP來確定最優邊。semanticitems都需要一條邊。每個phrase只能對應一個semanticitems。Type邊其中Wi,j來自詞典的權重,Xi,j表示是否保留這條邊(0,1)進一步依據問句與查詢對齊的結果,生成可能的模板模板可能匹配多個實體鏈接可能匹配圖譜中的多個實體可以使用多種方法如RandomForest學模板查詢響應速度快準確率較高,可以回答相對復雜的復合問題人工定義的模板結構經常無法與真實的用戶問題進行匹配。如果為了盡可能匹配上一個問題的多種不同表述,則需要建立龐大的模板庫,耗時耗第3節基于語義解析的知識圖譜問答浙江大學計算機科學與技術學院陳華鈞教授邏輯表達式語義解析算法語義解析模型訓練邏輯表達式語義解析算法ConstantslogicalconnectorsQuantificationadditionalquantifiers姚明的老婆的國籍是?lL分詞POS分詞POSNER…姚明E:姚明?R:?R:配偶R:國籍E:姚明,R:配偶,?y?y,R:國籍E:姚明,R:配偶,?y?y,R:國籍,?xSELECTDISTINCT?xWHERE{res:姚明配偶?y.}短語檢測及與具體知識庫圖譜無關的短語分類短語依存語法分析短語依存語法分析?WhatgovernmentdoesChilehave??WhatisItaly'slanguage??WhereisBeijing??WhatisthecoverpriceofX-men??WhodidHumphreyBogartmarryin1928?Alignment:buildcoarsemappingfromrawtextBridging:useneighboringpredicates/typeconstraintsOnly2%ofrelationphrasesonReverbcanbealignedtoFreebasetexttextalignedtext?Simplemodelsuggestscandidatelogicalforms?Simplemodelgeneratescanonicalutterances?Rankingofcanonicalutterances與模板方法類似,語義解析最終也希望得到一個可以直接在知識圖譜上查詢的邏輯表達式。但不同的是,語義解析方法期望直接從問句解析獲得對應的邏輯形式。不論采用哪種邏輯表達式,語義解析都需要經過短語檢測、資源映射、語義組合和邏輯表達式生成四個步驟。不論是模板還是語義解析的方法關注的重點還是問句本身,最大缺點是對知識圖譜中資源的利用程度不夠,事實上,知識圖譜中的海量知識是可以極大的增強問句的理解過程的。更好的方法應該充分深挖問句和知識圖譜兩方面資源所蘊含的信息。第4節基于檢索排序的知識圖譜問答浙江大學計算機科學與技術學院陳華鈞教授實體鏈接(EntityLinking)是一項在文本等載體中對知識圖譜中的命名實體進行識別和將實體鏈接問題的兩部分—識別和消歧—作為一個認為識別和消歧是可以互相提升效果。在消歧的過程中考慮所識別的所有候選實體能提高在實際應用中,我們經常需要把多語言的文本中的實體鏈接到一個或多個不同語種的知識圖譜上,這類型的設定被稱為是跨語言實體鏈接。當語種數目足夠多時,會出現低資源語種或實體對應的訓練數據極少的情況,因此,需要格外關注零樣本和少樣這里的模型融合負樣本挖掘、輔助的實體配對任務,得到一個能對100種語種的2000萬個實體進行實體鏈接的模型,取得很好的結果。基于特征的檢索排序傳統的基于特征工程的方法需要針對每個答案構建N維特征表示這些特征反映了問題和檢索所得的答案候選在某個維度上的匹配程度,用于排序疑問詞特征問題實體特征問題類型特征問題動詞特征問題上下文特征常用的答案特征包括謂詞特征類型特種上下文特征Yih等人是一個具有代表性的基于子圖匹配的檢索排序知識圖譜問答方法基于記憶網絡的檢索排序知識圖譜問答方法除問答模塊之外,引入記憶網絡模塊記憶網絡模塊負責將有限的記憶單元表示為向量問答模塊從記憶網絡模塊中尋找與問題有關的答案Miller等人提出基于Key-valueMemoryNetwork的問答模型,將外部數據輸優勢框架靈活、實用易于融合多種線索、特征容易與其他方法、框架結合適用多種類型資源劣勢依賴特征工程易受錯誤傳遞影響不擅長處理語義組合難以處理推理問題第5節基于深度學習的知識圖譜問答浙江大學計算機科學與技術學院陳華鈞教授1.知識圖譜實體在圖中用圓角矩形表示。4.lambda變量(答案),在圖中用灰底圓圈表示。WhofirstvoicedMegonFamilyGuy?候選主題詞:S1和S2周圍長度為1的路徑(S5)MegGriffin)?輸入:自然語言和候選路徑QuestionAnsweringwithSubgraphEQuestionansweringoverfreebNeuralEnd-to-End框架:Attention+GlobalKnowledge?問句語義表示過于簡單?對實體名稱等的訓練數據不足?Cross-Attention刻畫問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論