基于動詞的關系模式抽取方法_第1頁
基于動詞的關系模式抽取方法_第2頁
基于動詞的關系模式抽取方法_第3頁
基于動詞的關系模式抽取方法_第4頁
基于動詞的關系模式抽取方法_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于動詞的關系模式抽取方法摘要:本文提出了一種基于動詞的關系模式抽取方法,旨在從中文網頁語料中抽取高準確率的實體關系。使用ICTCLAS和實體表進行人名和島嶼島礁實體識別,生成準確的句子實例,在此基礎上構建基于動詞的關系模式。實驗結果表明該方法獲得了良好的抽取性能。關鍵詞:關系抽取;關系模式;實體識別一 引言信息抽取研究技術是人們獲取信息的有力工具,是應對信息爆炸帶來的嚴重挑戰的重要手段。信息抽取的目標是從無結構自然語言文本中提取計算機可以理解的結構化信息,其中一種主要的結構化信息是實體關系。關系抽取是信息抽取的子任務,主要目的是提取句子中的實體關系1。Web已經成為包含人類社會各種知識的信息

2、庫,其規模正在以指數級速度膨脹,容納的信息中有各種實體關系信息,如人物社會關系、國家與島嶼之間的擁有主權關系等等。然而,現有的搜索引擎僅能返回與用戶關心的相關信息網頁,不能得到各種關系信息。本文以從中文網頁語料中自動抽取實體之間關系為目標,提出一種基于動詞的關系模式抽取方法。二 關系抽取語料中的實體包括八類:人名、地名、城市、島嶼島礁、海域河域、組織機構、政府部門、軍事機構,如圖1所示。人名人名地名地名城市城市島嶼島礁島嶼島礁海域河域海域河域組織機構組織機構政府部門政府部門軍事機構軍事機構圖1 實體關系表如何抽取這八類實體之間的關系、以構建關系模式是我們要研究的內容,本文以抽取人名和島嶼島礁之

3、間的關系為例開展研究。我們提出的關系抽取策略包括句子實例獲取、關系模式的構建。實體關系抽取原理如圖2所示。中文網頁語料(文本)預處理關系模式構建確定動詞概念確定名詞概念生成規則訓練部分測試部分生成關系模式新實例抽取圖2 實體關系抽取原理圖(一) 句子實例獲取將中文網頁正文部分進行預處理,獲取含有實體的句子作為關系抽取的句子實例。預處理包括分段分句、詞性標注、命名實體識別等2。本文主要處理人物與島嶼島礁之間的關系抽取任務,所以在分好的句子中使用ICTCLAS3識別出這兩種實體類型,在句子中出現的人物以“1-人名XX”標注,島嶼以“23-島嶼名XX”標注。(二) 關系模式的構建傳統的啟發式方法對句

4、子實例進行詞性標注,并用通配符替換實體對出現的位置來構建模式4,但通用性和準確性不足,例如“北京是中國的首都”的模式構建結果為“object是/v target的/u首都/n”,而從“北京是中國政治文化的中心”中得到的模式并未表示北京和中國之間的capital-of關系。 本文使用的關系模式抽取方法是從種子句中出現在實體前后的上下文來學習關系模式,在從種子句中學習抽取模式時,并不是機械地把出現在種子句中實體前、實體中、實體后的所有詞語均作為所學模式的特征詞5。因為通過對句子的觀察,發現句子中兩個實體的上下文中常會出現大量的修飾性詞語,如形容詞、副詞、語氣詞等,如果把所有出現的詞語都作為抽取模式

5、的特征詞,一方面極大地增加了模式的長度,會在以后的模式匹配工作中占據較多的機器時間,另一方面長模式的匹配準確率也會有相應的下降。所以本文提出了基于動詞的關系抽取方法,以“動詞”為核心,將相同動詞的句子放在一起抽取關系模式。以下是一個句子標注例子:動詞:到達從譚門鎮出發,將航向調到東南110度,3天3夜后“瓊瓊海08068”號漁船船長1-許衛可到達23-黃巖島。不用翻譯我們抽取的是實體(概念)之間的關系,這種關系在文本體現方式上為上下文環境約束。即提煉各種上下文環境約束規則,將其實現到語言中,計劃實現的上下文環境計算符包括:SENT,表示在同一句話中;ORD,表示滿足先后順序;DIST_n,表示

6、兩兩距離不能超過n等等。關系模式的一個示例:CONCEPT: ACTION_ARRIVE: 到達CONCEPT: NAME: 許衛CONCEPT: NAME_ISLAND: 黃巖島MCONCEPT_RULE:ARRIVE(person.island):(SENT,ORD( “_personNAME”, ”ACTION_ARRIVE”, ”_islandNAME_ISLAND ”)不用翻譯關系模式包含兩部分的內容,一部分是概念,一部分是規則。“CONCEPT”表示概念,包括動詞概念和名詞概念,動詞概念以“ACTION_”為開頭,名詞概念指的是實體,如人物、地名(國家、島嶼、海域、城市)、組織機構

7、等等,“CONCEPT: NAME: 許衛”表示人名“許衛”,“CONCEPT: NAME_ISLAND: 黃巖島”表示島嶼名“黃巖島”;抽取的目標是概念的關系,我們用“MCONCEPT_RULE”定義抽取的規則,規則名“ARRIVE”用動詞來表示,規則由兩個參數person和island組成,分別對應名詞概念NAME和NAME_ISLAND。三 實驗結果及分析(一)實驗語料 實驗中選擇了人名與島嶼島礁名的關系作為抽取對象,使用了21,467篇中文網頁,對其進行分段分句,共分出435,210個相異句子,在分好的句子中使用ICTCLAS進行實體識別后再進行實體表比對,最終收集了含有人名和島嶼名的

8、共7959個句子組成了實驗集合。在對所有的句子按照“動詞”進行劃分,對句子中出現命名實體(人名、島嶼島礁名)進行標注后,選取其中有代表性的100個句子作為關系模式的種子集,余下句子作為測試集。(二)實驗結果構建關系模式過程由關系抽取系統實現,如圖3所示。輸入動詞“暗示”查找到相關句子,根據動詞定義規則名“IMPLY”稱并生成動詞概念“ACTION_IMPLY”,從句子中抽取名詞并生成名詞概念,以此構建概念之間的關系最終生成關系模式(即規則)。圖3 關系抽取系統圖片不用管將構建的關系模式寫入txt文件,如圖4所示。圖4 構建的關系模式在實驗中由于是對某一具體關系類別的分析,我們引入了準確率和召回

9、率這兩個判斷標準6,公式如下:準確率P=(正確抽取的某一實體關系數目)/(測試集中抽取的某一實體關系數目)召回率R=(正確抽取的某一實體關系數目)/(測試集中應有某一實體關系數目)實驗結果如表1所示。表1 關系模式抽取實驗結果DIST值抽取person-island關系數正確關系數應有person-island關系對準確率召回率DIST_213210516979.5%62.1%DIST_4987511476.5%65.8%不2%70.6%從表1中可以看出基于動詞的關系模式抽取方法的召回率和抽取的person-island關系的準確率與DIST值有很大關系,DIST_2

10、表示兩兩距離不超過2,即當person和動詞之間的距離不超過2時,抽取關系的準確率為79.5%,相對較高,而召回率較低;當DIST取值為DIST_4時,抽取關系的準確率為76.4%,較DIST_2時要低些,而召回率較DIST_2時要高些;當DIST取值不限時,即person與動詞之間無距離限制時,抽取關系的準確率更低些,而召回率較前兩者高些。四 結論 普通模式匹配方法抽取實體關系是用模式與句子及其詞語進行格式或形式上的匹配,這種方法一般要求句子的行文、結構比較規范。然而對于包含各種關系的中文網頁語料,由于其結構比較靈活,普通的模式匹配方法效率并不高,為此,本文提出了基于動詞的模式匹配方法來抽取

11、句子中實體的關系,完成了對人名和島嶼島礁之間的關系抽取任務。下一步的工作中,我們將對關系實例進行進一步挖掘,以提升抽取準確率并獲得更多語義信息,另外,我們還將嘗試抽取其他類別的關系實例。參考文獻1 吳楠,王慶林,劉禹. 基于百科詞條的領域本體關系抽取方法J中南大學學報(自然科學版),2013,(44):347-350.2 張葦如,孫樂. 基于維基百科和模式聚類的實體關系抽取方法J中文信息學報,2012,(2):75-78.3 中科院計算所.ICTCLAS漢語分詞系統EB/OL ,2011/.Chinese Academy of Institute of Com

12、puting Technology. ICTCLAS Chinese Analysis System4 O.Medelyan, D.Milne,C.legg. Mining Meaning from WikipediaJ. International Journal of Human-Computer Studies, 2009, 67 (9): 716-754.5E.Agichten and L.Gravano. Snowball. Extracting relations from large plain-text collectionsJ. Proceedings of the fifth ACM conference on Digital libraries,New York,ACM Press,2000,85-946zelenko D,Aone C,Rechardella A. Kernel Methods for Relation ExtractionJ. Jou

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論