語義相似度的計算方法研究論文_第1頁
語義相似度的計算方法研究論文_第2頁
語義相似度的計算方法研究論文_第3頁
語義相似度的計算方法研究論文_第4頁
語義相似度的計算方法研究論文_第5頁
已閱讀5頁,還剩4頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

語義相似度的計算方法研究信息與計算科學余牛指導教師冉延平摘要語義相似度計算在信息檢索、信息抽取、文本分類、詞義排歧、基于實例的機器翻譯等很多領域中都有廣泛的應用特別是近幾十年來隨著INTERNET技術的高速發展,語義相似度計算成為自然語言處理和信息檢索研究的重要組成部分本文介紹了幾種典型的語義相似度的計算方法,總結了語義相似度計算的兩類策略,其中重點介紹了一種基于樹狀結構中語義詞典HOWNET的語義相似度計算方法,最后對兩類主要策略進行了簡單的比較關鍵詞語義相似度語義距離知網語料庫THERESEACHOFCOMPUTINGMETHODSABOUTSEMANTICSIMILARITYYUNIUDEPARTMENTOFMATHEMATICSANDSTATISTICS,TIANSHUINORMALUNIVERSITY,741000ABSTRACTSEMANTICSIMILARITYISBROADLYUSEDINMANYAPPLICATIONSSUCHASINFORMATIONRETRIEVAL,INFORMATIONEXTRACTION,TEXTCLASSIFICATION,WORDSENSEDISAMBIGUATION,EXAMPLEBASEDMACHINETRANSLATIONANDSOONESPECIALLYWITHTHERAPIDDEVELOPMENTOFINTERNETTECHNOLOGYINRECENTDECADES,CALCULATIONOFSEMANTICSIMILARITYHASALWAYSBEENANIMPORTANTPARTOFNATURALLANGUAGEPROCESSINGANDINFORMATIONRETRIEVALRESEARCHTHISPAPERINTRODUCESSEVERALMAINMETHODSOFCALCULATINGSEMANTICSIMILARITY,THENTWOSTRATEGIESOFSEMANTICSIMILARITYMEASUREMENTARESUMMARIZED,ANDWEFOCUSEONTHEHOWNETBASEDONTHESTUCTUREOFTREEANDUSETHEMTOCALCULATETHESEMANTICSIMILARITY,ANDFINALLYTHETWOSTRATEGIESAREEASILYCOMPAREDKEYWORDSSEMANTICSIMILARITY,SEMANTICDISTANCE,HOWNET,CORPUS1引言語義相似度計算研究的是用什么樣的方法來計算或比較兩個詞語的相似性自然語言的詞語之間有著非常復雜的關系,在實際應用中,有時需要把這種復雜的關系用一種簡單的數量來度量,而語義相似度就是其中的一種詞語的語義相似度計算主要有兩種方法一類是通過語義詞典,把有關詞語的概念組織在一個樹形的結構中來計算另一類主要是通過詞語上下文的信息(本文只介紹了主要的理論方法),運用統計的方法進行求解對于前一類基于樹狀層次結構的計算語義相似度方法的研究已經比較成熟,國外的DEKANGLIN,RUDILCILIBRASI等都給出了自己的比較合理的語義相似度計算公式和方12法國內這方面起步較晚,但發展很快,董振東,劉群,李素建4等在這方面的研究做了很多3開創性的工作,李峰,楊哲,李熙,夏天等后來者做了很多補充性和改進性的工作5678針對以上研究現狀,筆者對當前的語義相似度研究成果進行了簡單的歸納和總結,然后對相關方法進行了簡單比較,并提出了研究的應用方向,以供相關研究人員參考和應用2語義相似度什么是語義相似度語義相似度是一個主觀性相當強的概念,沒有明確的客觀標準可以衡量脫離具體的應用去談論語義相似度,很難得到一個統一的定義由于詞語在語言結構中的一般性,我們著重研究詞語的相似度,進而推廣到句子,以致整個文本的相似度DEKANGLIN認為任何兩個詞語的相似度取決于它們的共性COMMONALITY和個性1DIFFERENTCES,然后從信息論的角度給出了定義公式1,LOG,BANDESCRIPTOCMBASIM其中,分子表示描述共性所需要的信息量;分母表示完整地描述所需要的信息,BA,量劉群,李素建4以基于實例的機器翻譯為背景,認為語義相似度就是兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結構的程度兩個詞語,如果在不同的上下文中可以互相替換且不改變文本的句法語義結構的可能性越大,二者的相似度就越高,否則相似度就越低對于兩個詞語,如果我們記其相似度為,其詞語距離為21W、,21WSIM,根據劉群,李素建4的公式21WDIS(2),2121WDISSIM其中是一個可調節的參數的含義是當相似度為05時的詞語距離值筆者嘗試從樹論的角度給出一個定義,假設任意兩個詞語可以表示為一個樹形21W、結構中如同義詞詞典WORDNET即為這種樹形結構的兩個結點,由于語義距離與語義相似度成反比例關系。于是,可以給出一個簡單公式,21WDIS21WSIM3,2121DISKSIM其中,為樹中所代表的結點在樹中的距離,為比例系數,21IS、K一般地說,相似度一般被定義為一個0到1之間的實數特別地,當兩個詞語完全一樣時,它們的相似度為1;當兩個詞語是完全不同的概念時,它們的相似度接近于03語義相似度的計算方法詞語距離有兩類常見的計算方法,一種是根據某種世界知識(ONTOLOGY)或分類體系(TAXONOMY)來計算,一種利用大規模的語料庫進行統計31根據世界知識或分類體系計算詞語語義距離的方法該方法又稱基于樹的語義相似度研究方法,基于樹的語義相似度計算的算法大體上分為兩種一是基于距離的語義相似性測度二是基于信息內容的語義相似性測度一般是利用一部語義詞典(如WORDNET,HOWNET),語義詞典都是將所有的詞組織在一棵或幾棵樹狀的層次結構中我們知道,在一棵樹狀圖中,任何兩個結點之間有且只有一條路徑于是,這條路徑的長度就可以作為這兩個詞語概念間語義距離的一種度量;而且隨著概念所處結點越深,其所包含的語義信息越豐富,越能準確地決定概念的性質,它們對語義相似度起著決定作用311知網HOWNET簡介知網是一部語義詞典,由我國著名機器翻譯專家董振東逾十年功夫創建的一個知3識系統,是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫知網中含有豐富的詞匯語義知識和世界知識,為自然語言處理和機器翻譯等方面的研究提供了寶貴的資源312基于樹狀層次計算語義相似度的基本思想以邊作為距離根據公式3筆者給出的定義,我們的計算思想是以邊為距離來計算語義相似度如果樹狀語義網中所有的邊即樹的分支是等長的,那么邊的數目可以作為距離的測度假定要確定詞語之間的語義相似度,可以在該語義網中首先找到包含待比較詞的那21W、些子概念(或義原)在此情況下,之間的語義相似性可以用連接這兩個概念之21W、間的最短路徑來表示例如,在圖1取自WORDNET本體中的一小部分中,BOY和GIRL之間的最短路徑是BOYMALEPERSONFEMALEGIRL,最小路徑長度為4而TEACHER和BOY之間的最小路徑長度為6因此,GIRL比TEACHER在語義上更接近于BOY該測度算法在基于WORDNET的語義網中獲得了較好的計算結果LIFEFORM,BEINGANIMAI,BEASTPERSON,HUMANADULT,GROWUPMALE,MALEPERSONFEMALE,FEMALEPERSONJUVENILE,JUVENILEPERSONPROFESSIONAL,PROFESSIONALPERSONMALECHILD,BOY,CHILDFEMALECHILD,GIRL,CHILD,LITTLEGIRLCHILD,KID,MINOR,EDUCATOR,PEDAGOGUETEACHER,INSTRUCTORENTITY,SOMETHING圖1313基于知網HOWNET的語義相似度計算知網中有兩個主要的概念“概念”與“義原”“概念”是對詞匯語義的一種描述每一個詞可以表達為幾個概念“概念”是用一種“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”“義原”是用于描述一個“概念”的最小意義單位與一般的語義詞典WORDNET不同,知網并不是簡單地將所有的“概念”歸結到一個樹狀的概念層次體系中,而是試圖用一系列的“義原”來對每一個“概念”進行描述由于知網HOWNET中詞語不是組織在一個樹狀的層次體系中,而是一種網狀結構;同時借助義原和符號對概念進行描述對于兩個漢語詞語和,如果有個義1W21N項(概念),有個義項(概念),1S2NS12WMSMS2劉群,李素建4認為和的相似度是各個概念的相似度之最大值,也就是說(4),MAX,211,21JIJNISWSI為了更加精確地計算出詞語的語義相似度,在知網中對一個實詞的描述可以表示為一個特征結構,該特征結構含有以下四個特征第一基本義原描述其值為一個基本義原,我們將兩個概念的這一部分的相似度記為;,21SIM其它基本義原描述對應于語義表達式中除第一基本義原描述式以外的所有基本義原描述式,其值為一個基本義原的集合,我們將兩個概念的這一部分的相似度記為;,21SIM關系義原描述對應于語義表達式中所有的關系義原描述式,其值是一個特征結構,對于該特征結構的每一個特征,其屬性是一個關系義原,其值是一個基本義原,或一個具體詞我們將兩個概念的這一部分的相似度記為;,213SIM關系符號描述對應于語義表達式中所有的關系符號描述式,其值也是一個特征結構,對于該特征結構的每一個特征,其屬性是一個關系義原,其值是一個集合,該集合的元素是一個基本義原,或一個具體詞我們將兩個概念的這一部分的相似度記為;,214SIM通過以上分析,可知在實際的知網結構中,由于各個義原所處的層次不一樣,因而它們對詞語相似度的影響程度也不一樣,也就是說部分相似性在整體相似性中所占的權重是不一樣的,權重(百分比)我們用表示,于是,在知網中,概念的整體相似度可以記I為5,214121SIMSIMI其中,是可調節的參數,且有,I14321后者反映了到對于總體相似度所起到的作用4321,21SIM,214SI依次遞減由于第一獨立義原描述式反映了一個概念最主要的特征,所以應該將其權值定義得比較大,一般應在05以上在以上計算中,最后求加權平均時,各部分取相等的權值這樣,就把兩個詞語之間的相似度問題歸結到了兩個概念之間的相似度問題313實驗及結果根據以上方法,劉群,李素建4實現了一個基于知網的語義相似度計算程序模塊,這里我們選取其中的一個實驗結果片段來分析方法1僅使用知網語義表達式中第一基本義原來計算詞語相似度;方法2劉群,李素建的語義相似度計算方法;1實驗結果如表1表1詞語1詞語2詞語2的義原方法1方法2男人女人人,家,女10000861男人父親人,家,男10001000男人母親人,家,女10000861男人和尚人,宗教,男10000861男人經理人,職位,官,商10000630男人高興屬性值,境況,福,良00160048男人收音機機器,傳播01860112男人鯉魚魚03470209男人蘋果水果02850171男人工作事物,擔任01860112男人責任責任00160126實驗結果分析考察方法1的結果,我們可以看到,“男人”(取義原“人,家,男”)和其它各個詞的相似度與人的直覺是比較相符合的將方法1、方法2的結果相比較,可以看到方法1的結果比較粗糙,只要是人,相似度都為1,顯然不夠合理;而方法2的結果中,這兩個相似度的差距更合理一些32利用大規模的語料庫進行統計基于語料庫的詞語相似度研究大都采用了上下文語境的統計描述方法,即認同這樣一個論斷詞語的上下文可以為詞語定義提供足夠信息詞語向量空間模型是目前基于統計的詞語相似度計算策略使用比較廣泛的一種,算法復雜度也能夠實現的模型該模型事先選擇一組特征詞,然后計算這一組特征詞與每一個詞的相關性一般用這組詞在實際的大規模語料中以該詞在上下文中出現的頻率來度量,于是,對于每一個詞都可以得到一個相關性的特征詞向量,然后利用這些向量之間的相似度作為這兩個詞的相似度4其他方法基于信息論和搜索引擎的方法我們這里另外所介紹的第一種方法,主要是基于樹狀結構中兩個結點所含的信息量的大小來計算語義相似度,其基本思想是利用信息理論來進行研究如以下DEKANGLIN給1出的公式6LOGL2,2121SPSIM其中,表示兩個義原,表示離它們最近的共同祖先,是該結點的子節點個21SP數包括自己與樹中的所有節點個數的比值這種方法對樹狀結構概念所包含的信息量要求比較高,結果有賴于語義詞典的完善性和相對準確性;優點是計算比較方便第二種方法由計算機自然語言處理專家RUDILCILIBRASI和PAULMBVITANYI2200712提出的語義相似度計算方法,該方法理論基礎涉及信息論,壓縮原理,柯爾莫哥洛夫復雜性,語義WEB,語義學等,基本思想是把INTERNET作為一個大型的語料庫,以GOOGLE對其它的搜索引擎如百度同樣適用作為搜索引擎,搜索返回的結果數作為計算的數值依據,其計算公式如下(7)LOG,MINLLOG,AX,YFXFNFYNGD其中,NORMALIZEDGOOGLEDISTANCE,介于0與1之間表示標準谷歌距離以此衡量語義相似性大小,分別表示含概念的網頁數,表示同時含有概念,YFX,YXF的網頁數,表示GOOGLE引用的互聯網上的網頁總數我們可以以一次實驗來說明,YX假設用GOOGLE搜索詞語“”返回46,700,000記為條結果,搜索詞語“HORSEF”返回結果數為12,200,000記為,搜索同時含“”的網頁數是RIDEYFRIDEHOS2,630,000記為,GOOGLE共引用的網頁數是8,058,044,651,代入上述公式7YXFN求得0443,RIDEHOSNGD這種方法在機器翻譯、文本分類等方面有較好的應用前景,且方法直觀易于理解缺點是計算量較大,N搜索引擎所引用的網頁數是一個動態值不易確定,計算有一定的誤差5兩類主要語義相似度計算方法的比較下面對基于語義詞典和基于語料庫的詞語相似度計算這兩類策略的方法、前提條件、所用工具等6個方面進行比較,見表2表2基于語義詞典的詞語相似度計算基于語料庫的詞語相似度計算客觀計算經驗法方法前提條件兩個詞匯具有一定的語義相關性,當且僅當它們在概念間的結構中有且僅有一條路徑詞語的上下文可以為詞語定義提供足夠信息,兩個詞語語義相似當且僅當它們處于相似的上下文環境中所用工具語義詞典大規模語料庫理論依據樹論,圖論向量空間優點比較直觀而且簡單有效,可以計算出字面上不相似的詞匯間的相似度能夠客觀地反映詞語的形態、句法、語義等特點缺點比較受人的主觀影響比較大,有時不能反映客觀現實性能依賴于語料庫的優劣,存在數據稀疏的問題,也有噪聲干擾6小結與瞻望鑒于語義相似度在現代科學領域中的廣泛應用,在本文中,我們比較系統介紹了當前語義相似度計算的一些理論及方法,并簡單比較了兩種主要方法的特點及區別,重點描述了基于中文語義詞典知網HOWNET的相似度計算方法最后簡單介紹了國外基于搜索引擎的相似度計算法,很值得我們借鑒對于下一步的工作,筆者認為除了完善語義詞典的全面性和準確性之外,我們能不能選擇或找到一種相對比較簡捷地準確計算出語義相似度的方法,以確定出相似度,然后將此方法應用于信息檢索等領域,如在百度中要搜索關鍵詞時,可以設定一個相對合適的相似度值,從而可以全面而準確地查詢到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論