




已閱讀5頁,還剩51頁未讀, 繼續免費閱讀
(語言學及應用語言學專業論文)基于本體的語言學文獻分類研究.pdf.pdf 免費下載
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘要 隨著互聯網上信息量的迅猛增加,語言學工作者研究的不斷深入,如何在紛繁復雜 的文獻材料中,快速、準確地找到用戶需要的信息,文本分類起著非常重要的作用。而 其中,基于語義的文本分類逐漸成為主流,語義關系的最佳載體一本體,成為了學術界 關注的焦點。 本體就是對概念和關系的描述,基于本體的文本分類就是基于知識層面和語義層次 上的分類。本文在論述語言學領域本體庫建立并應用于文本分類意義的基礎上,通過細 致分析語言學內部詞語之間的語義關系,構建了語言學文獻的領域本體。提出了基于本 體語義關系進行匹配的語言學文獻分類方法。首先,利用已有的分詞系統對文獻進行分 詞處理和關鍵詞抽取,采用經過一定改進的t f i d f 算法,對文獻關鍵詞進行特征選擇, 確定待分類文本的特征項。然后將這些特征項與領域本體庫中存儲的領域特征項進行匹 配,從而得到文本的類別。本文介紹了兩種分類算法,一種是基于概念語義的匹配,一 種是非一致性模糊匹配。無論采取哪種算法,都可以在一定程度上彌補當前分類系統缺 乏語義聯系的不足,提高文本分類的準確性。 關鍵詞文本分類本體領域本體語言學文獻 匹配 a b s t r a c t a b s t r a c t w i t ht h e r a p i di n c r e a s e o fi n t e r n e ti n f o r m a t i o na n dt h el i n g u i s t s l u c u b r a t i n g ,t e x t c l a s s i f i c a t i o np l a y sa ni m p o r t a n tr o l ei nh o ww ec a ns c a na n du s et h er e q u i r e di n f o r m a t i o n c o n c e r n i n gl i n g u i s t i c sl i t e r a t u r ep r o m p t l y b u ta m o n g ,t h ed o c u m e n tc a t e g o r i z a t i o nb a s e do n s e m a n t e m e g r a d u a l l yb e c o m e s t h em a i n s t r e a m ,t h es e m a n t i cr e l a t i o n sb e s tc a r r i e r o n t o l o g y , b e c o m ea t t e n t i o nf o c u si nt h ea c a d e m i c o n t o l o g yi s ad e s c r i p t i o nb e t w e e nt h e c o n c e p t i o na n dt h er e l a t i o n t h ed o c u m e n t c a t e g o r i z a t i o nb a s e do no n t o l o g yi sb a s e du p o nt h el e v e lo fk n o w l e d g ea n ds e m a n t i cr e l a t i o n s c a t e g o r i z a t i o ni n d e e d t h i sp a p e rw h i c hi sb a s e du p o nt h ed i s c u s s i o no fl i n g u i s t i c sd o c u m e n t f e a t u r e d a t a b a s ee s t a b l i s h m e n ta n dt h ea p p l i c a t i o no nt e x tc l a s s i f i c a t i o ns t r u c t u r e st h e l i n g u i s t i c sd o c u m e n tf e a t u r e d a t a b a s eb ya n a l y s i n gt h ei n t e m a lr e l a t i o n so fl i n g u i s t i c sw o r d s s e m a n t i ce a r n e s t l y , a n dp r o p o s e sl i n g u i s t i c sd o c u m e n tc l a s s i f i c a t i o nm e t h o dw h i c hi sb a s e d u p o ns e m a n t i cr e l a t i o n sm a t c h f i r s t l y , u s et h ep a r t i c i p l es y s t e mt oc h o o s et h ek e yw o r dw i t h t h ed o c u m e n t u s et h et f i d fa l g o r i t h mi nf e a t u r ee x t r a c t i o nw i t ht h ek e yw o r d st oa n a l y s e f e a t u r ei t e m t h e nt h ef e a t u r ei t e mm a t c h e sw i t ht h ef e a t u r e - d a t a b a s e ,t h u so b t a i n st h e d o c u m e n t sc a t e g o r y t h i sp a p e rd e s i g n st w ok i n d so fc a t e g o r i z a t i o nm e t h o d s o n ei sb a s e d o nt h ec o n c e p ts e m a n t i c sm a t c ha n dt h eo t h e ri su n i f o r m i t yf u z z ym a t c h n om a t t e rw h a t a l g o r i t h mi ss e l e c t e d ,i tc a nm a k eu pi n s u f f i c i e n to fc u r r e n tc a t e g o r i z a t i o nd e f i c i e n ts e m a n t i c r e l a t i o nt os o m ee x t e n t e n h a n c et h ed o c u m e n tc l a s s i f i c a t i o na c c u r a c y k e yw o r d s :d o c u m e n tc a t e g o r i z a t i o n ;o n t o l o g y ;d o m a i no n t o l o g y ; l i n g u i s t i c sd o c u m e n t ;m a t c h i n g l i 河北大學 學位論文原創性聲明 本人鄭重聲明:所呈交的學位論文,是本人在導師指導下進行的研究工作及取得 的研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他 人已經發表或撰寫的研究成果,也不包含為獲得河北大學或其他教育機構的學位或證書 所使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均己在論文中作了明確 的說明并表示了致謝。 作者簽名: 窆延婊日期:2 卑年月l 日 學位論文使用授權聲明 本人完全了解河北大學有關保留、使用學位論文的規定,即:學校有權保留并向國 家有關部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱。學??梢怨?論文的全部或部分內容,可以采用影印、縮印或其他復制手段保存論文。 本學位論文屬于 l 、保密口,在年月日解密后適用本授權聲明。 2 、不保密口。 ( 請在以上相應方格內打“妒) 作者簽名: 導師簽名: 日期:叢丑年j 月上日 日期:遵年月j l 日 第1 章引言 1 1 研究背景及意義 第1 章引言 在網絡逐漸普及,并進一步成為人們主要信息查詢手段的今天,很多信息查詢不確 切的問題經常困擾我們。當用戶進行信息查詢時,與要求不大相關的信息會大量涌現, 如何在紛繁復雜的信息中找到自己想要的內容,成為信息獲取首先需要解決的問題。為 了能獲得更多有價值的信息,提高對信息組織、整理的效率,必須對文本進行自動分類。 信息檢索和文本分類是兩個相輔相成的過程。只有把握好“分類”這一關鍵環節,對信 息的利用才能達到更滿意的效果。 文本自動分類( a u t o m a t i cd o c u m e n tc a t e g o r i z a t i o n ) 【1 】就是利用計算機對文本集( 或 其他實體對象) 按照一定的分類體系或標準進行類別劃分。自動分類技術是有效運用信 息的基礎,是代替繁雜的傳統人工分類方法的有效手段和必然趨勢。利用先進的計算機 技術和人工智能技術進行文本分類,不僅方便快捷,容易實現,節省大量的人力、物力, 而且還可以進行更深層次的信息挖掘處理,提高信息的利用效率和深度。文本自動分類 對提高信息搜索的效率和質量具有重要意義: 首先,使信息的分類和運用更加方便快捷。自動對文本進行分類可以為使用者在網 絡上進行信息檢索提供方便。i n t e r n e t 上的信息資源對于用戶來說常常是雜亂且不相關 的,用戶很難從網絡中直接找到所需要的信息資源。為了滿足廣大用戶在信息海洋中方 便快捷地獲取有價值信息的愿望,這就需要研究有效的文本分類方法,對巨大的網絡信 息資源進行分類。只有這樣,才能提高用戶搜索和運用i n t e m e t 信息資源的速度和質量。 其次,可以盡可能減少人力浪費和人為誤差的產生。采用自動分類方法可以節省大 量人力,而且自動分類的效率是人工分類效率的百倍甚至千倍【2 1 。由于計算機運算速度 快,因此,使用計算機自動對文本進行分類的速度和效率是人工分類所不能及的;而且 計算機的計算精度高,減少了人為錯誤產生的可能性。 目前,對文本分類方法的運用和研究已經成為重要課題,對于文本分類方法的研究 已經有很多,但其中還有不少問題值得進一步探討。例如文本分類系統如何從信息資料 中自動學習、獲取相關知識:如何在文本分類過程中避免機械的字串匹配,實現接近人 腦智能性的語義分類等。針對這些問題所展開的研究,對于提高文本分類的性能,進而 1 河北大學文學碩士學位論文 改善人類信息獲取的效率,推動社會進步,具有重要的理論意義和現實意義。 本文立足于語言學文獻開展研究,主要原因有二: 1 語言學既是一門基礎學科,同時又涵蓋許多邊緣學科,范圍之廣是其他任何學 科所不能及的。 語言學是研究人類語言以及所有人類語言背后規則的科學,按研究目的和范圍的不 同可以分為普通語言學、個別語言學、歷史語言學、描寫語言學等。內部又可以分為語 音學、語義學、詞匯學、語法學、修辭學、方言學等類別。隨著科學的發展,語言學不 再作為一個獨立的學科存在,而是同哲學、歷史學、人類學、心理學、邏輯學、文學等 密切相關,同數學、聲學、數理邏輯、電子學等也建立了緊密的聯系。語言學知識不僅 對認識語言的本質、特點和發展規律,指導語言教學,確定語言規范,研究翻譯理論來 說是必要的,而且對了解人類社會發展和民族形成的歷史,進行機器翻譯,治療語言障 礙的疾病也是有一定幫助的。 隨著語言學逐漸成為一個熱門的學科,對語言學的研究也逐漸加深。語言學與其他 領域交叉產生了一些新興學科,其中包括社會語言學、心理語言學、認知語言學、應用 語言學等多個領域。同時也產生了很多具有語義關聯的新概念,例如,用戶在查找有關 “歷時語言學 的文獻資料時,基于關鍵詞的文本分類方法只能分析出包含這個詞語的 文本資料,但是,從語言學專業角度來講,“演化語言學 和“歷時語言學”是同一個 概念的兩種不同的說法。這時,只有分清楚兩詞語在語義上的同義關系,才能在檢索出 有關“歷時語言學 文章的同時,也檢索出有關“演化語言學 的文章,在很大程度上 提高文本分類的查準率和查全率。因此,研究語言學文獻的自動分類方法具有重要的理 論意義和良好的應用前景。 2 由于作者本人知識水平有限,導致研究工作只能局限于這個領域。但是,真心 希望通過作者本人的微薄之力,可以對其他學科的研究提供些許幫助。 1 2 國內外研究現狀及分析 1 初級階段 文本分類可以追溯到上世紀五、六十年代,早期的文本分類主要是基于知識工程 ( k n o w l e d g ee n g i n e e r i n g ) ,通過手工定義一些規則對文本進行的分類。應用知識工程 2 第1 蘋引言 方法在實際操作過程中,最大的缺點和不足就是需要專業人員手工編寫分類規則來表達 領域專家所擁有的知識,運用這些規則將文檔分到一個給定的類別體系中【3 1 。這種方法 不僅需要有領域專家的合作,而且還需要知識工程師手工編制大量的推理規則,具有很 大的限制性和不確定性,最能代表這種工作方法的是路透社開發的c o n s t r u e 系統【4 1 。 2 進一步發展 2 0 世紀9 0 年代以來,隨著網上在線文本的大量涌現和機器學習的興起,大規模的 文本分類和信息檢索再次引起了研究者的興趣。文本分類系統首先通過在預先分類好的 文本集上訓練,建立一個判別規則或分類器,從而對未知類別的新樣本進行自動歸類。 它不再需要大量的領域專家的參與,算法也獨立于某個領域,不再受到領域知識的限制, 能適用于任何領域的學習,使得它成為目前文本分類的主要方法f 熨。幾種最能代表國外 自動分類系統的研究成果如表1 1 所示: 表1 1 國外近年來開發的自動分類系統 序號時間 完成機構完成人員技術特點 11 9 9 4 年 a t & t 實驗室d a v i d d l e w i s 等基于非確定性的自動分類技術 w i l l i a mw c o h e n 21 9 9 6 年 a t & t 實驗室電子郵件的自動分類 1 r 31 9 9 7 焦 德國d o r t m u n d 大學計算機系 t o r s t e nj o a c h i m s 等基于向量空間模型的自動分類 基于很少語料詞匯的層次自動 4 1 9 9 7 年 美國s t a n f o r d 大學計算機系 d a p h n ek o l l e r 等 分類 51 9 9 8 年 y i m i n gy a n g 等 自動分類 美國c a r n e g i em e l l o n 大學計算 采用決策樹等聚類算法的在線 機系 a n d r e wm c c a l l u m 運用信息熵理論、b a y e s 理論等 6 1 9 9 9 年 美國j u s tr e s e a r c h 公司 等 實現多類號的自動分類 美國m a s s a c h u s e t t s 大學計算 7 1 9 9 9 年j a m i ec a l l a n 等針對文本庫的自動分類系統 機系 為推廣電子商務研制基于文本 81 9 9 9 年 美國i b m 和o r a c l e 公司 內容的電子郵件自動分類 為其瀏覽器開發基于內容屬 9 1 9 9 9 年 m i c r o s o r 公司 性分類的插件 國內的自動分類研究工作始于8 0 年代,經過2 0 多年的發展,已經有了一些比較有 代表性的輔助歸類和自動歸類系統。國內比較典型的自動分類系統如表1 2 所示【5 1 : 河北大學文學碩士學位論文 表1 2 國內近年來開發的自動分類系統 完成時 序號完成機構完成人員主要技術特點 間 根據原有的類別主題詞表和 1 1 9 8 6 年上海交通大學計算機系朱蘭娟,王永成 b a y e s 最小損失原則確定分類 主題詞與類號關系表,確定權重 2 1 9 9 5 在南京大學蘇新寧等 系數,分類前控詞典,停用詞表 目前,對中文文本自動分類而言,主要有三方面的因素影響其分類效果: 1 雖然國外的英文文本分類方法已經日漸成熟,很多英文文本分類的方法可以借 鑒到中文文本分類系統中來,但是,語言方面畢竟存在很大的差異,不能完全照抄照搬。 而且隨著中文語義,詞匯等方面的不斷發展,更需要我們開發適用于當前漢語發展的中 文文本分類系統。國內外對文本分類的研究大都是圍繞對詞的統計分析展開的,但是相 對于英文來說,中文文本中詞語的正確切分是一個很大的難題,分詞的正確與否成為影 響分類效果的重要因素之一; 2 另一個影響分類系統正確率的重要因素是詞匯差異( v o c a b u l a r yg a p ) ,許多文 本分類系統采用抽取關鍵詞或類別詞的方法對文本進行分類。這樣的系統通常都是基于 一種假設:類別描述詞表與文本之間共享這些詞語,我們可以稱這種相關性匹配為基于 表層的匹配( s u r f a c e b a s e dm a t c h i n g ) 【6 1 。由于幾乎不受限制的自由文本用詞和受控的 類別詞表之間存在很大的差異,這種基于表層的匹配不可避免地存在著難以達到更高分 類正確率的問題。 3 文本分類的知識和策略也是影響分類效果的一個重要因素1 1 。 1 3 本文組織 本文在傳統文本分類技術的基礎上,運用本體論的思想,研究語言學文獻的自動分 類方法。主要包括三個部分的研究內容: 1 確定語言學文獻自動分類的領域,對語言學文獻進行預處理; - 4 - 第1 章引言 2 用本體論的思想建立語言學文獻的領域本體; 3 將語言學文獻的領域本體應用到對語言學文獻的分類過程中,力求取得更好的 分類效果。 本文共分五章,文章結構及各章主要內容如下: 第l 章:引言。介紹文本分類的研究背景和研究意義;分析國內外文本自動分類的 研究現狀;給出本文的研究工作;最后,介紹本文的組織結構。 第2 章:本體論的觀點。詳細介紹本體的淵源和定義;分析建立本體依據的原則以 及本體的組成成分和本體的分類。對本體的概念做出一個全面立體的介紹。 第3 章:構建語言學文獻領域本體所使用的關鍵技術。首先,采用向量空間模型 ( v s m ) 的方法表示文本;其次,利用詞或短語之間的概念關聯,運用經過一定改進 的t f i d f 算法提取文本特征;最后,介紹了詞語之間的幾種語義關系。 第4 章:語言學文獻領域本體的構建。首先確定建立領域本體的范疇和目的;其次, 對語言學的相關概念進行處理,確定領域本體的特征項,并采用p r o t 6 9 6 工具建構語言 學領域本體;并對語言學領域本體進行形式化編碼;最后,語言學領域本體還要隨著社 會的發展不斷改進和充實。 第5 章:基于本體的語言學文獻分類過程。首先介紹基于本體的文本分類流程;然 后,對語言學文獻進行預處理,得到待分類文本的特征項;接下來依賴語言學領域本體 對語言學文獻進行文本分類,這里使用了基于概念語義和非一致性模糊匹配兩種算法, 通過評估得出結論:基于本體的文本分類結果準確率高于其他分類方法。由此證實基于 本體的文本分類方法切實可行。 第6 章:結論和展望。對本文提出的內容進行總結,并提出下一步的工作和目標。 河北大學文學碩士學位論文 第2 章本體介紹 本章首先從理論上介紹本體的淵源、定義、組成、建構本體所依據的原則、當前最 流行的本體的分類方法和本體的應用。 2 1 本體的淵源 本體( o n t o l o g y ) 原本是一個哲學概念。1 7 世紀初,西方哲學家提出“本體”這個 概念,用于避免“形而上學( m e t a p h y s i c s ) ”中的一些二義性問題;1 8 世紀初,本體已 被哲學界廣泛采用。它指的是探究天地萬物產生、存在、發展變化的根本原因和根本依 據的學說【7 1 。 近年來,關于本體的研究、開發和應用越來越多。2 0 世紀9 0 年代初期以來,國際 計算機界舉行了多次關于本體的專題研討會。并取得一個共識,把現實世界中某個應用 領域抽象或概括成一組概念及概念間的關系,構造出一個領域的本體,可以使計算機對 該領域的信息處理更為方便,人們在運用這些成果時也更為準確和快捷。本體正逐步成 為知識獲取以及自然語言處理研究的一個核心內容。 2 2 本體的定義 關于本體的定義,哲學界和計算機界有著很大的差別。在哲學界,本體是表達哲學 理論的術語,是指關于存在及其本質和規律的學說,是物質存在的一個系統的解釋,這 個解釋不依賴于任何特定的語言。 而在計算機領域,本體則被解釋為一種表達形式。它將領域的知識概念化,并可以 表達成計算機能夠理解的形式。雖然本體論( 或稱實體論) 這個概念在計算機科學中變 得越來越重要,然而,到目前為止,在計算機界卻很難為本體論下一個確切的定義。斯 坦福大學的g r u b e r 給出的定義得到許多同行的認可,即本體論是對概念化的精確描述。 本體論的最終目標是精確地表示那些隱含( 或不明確的) 信息,使得它們可以為計算機 領域的發展服務。 第2 章本體介紹 2 3 本體的組成 本體研究的是客觀事物存在的本質,一個本體就是某個領域或一個領域的某個方面 的客觀存在的本質。我們可以通過客觀存在的概念來認識其本質。首先,客觀事物存在 于與其相關聯的其他事物之間、存在于自身的變化之間;其次,具體的事物與它們之間 的關聯一起構成具體的存在,對具體的存在進行概括產生抽象的存在;最后,這些客觀 事物及其之間的關聯形成事物的一個概念關系。 本體的組成從形式上說,可以由概念類、關系、函數、公理和實例( 屬性) 5 種元 素組成【8 】。 1 概念。這里所說的概念是廣義的概念,它通??梢詷嫵梢粋€分類層次。概念是 客觀事物在人腦中的反映,是對事物進行概括的表征。這樣的事物可以是抽象的,也可 以是具體的。例如,在語言學文獻中,“人稱代詞 就是一個概念,而其中包含的“你” “我”“他( 它) ”則是這個概念的實例化; 2 關系。關系表示概念之間的一類關聯,反映了多個概念之間的內在聯系,例如: 同義關系是表示兩個或兩個以上概念之間等同的關系,近義關系則是表示兩個或兩個以 上概念之間相近的關系; 3 函數。函數也是一種特殊的關系,可以用來定義或者計算概念與概念之間、概 念與實例之間、實例自身之間的關系; 4 公理。公理用來表示一些永真式,即永遠不變的關系或者概念; 5 實例。實例是指屬于某概念類的基本元素,即某概念類所指的具體實體,特定 領域的所有實例構成領域概念類在該領域內的指稱域。 2 4 建立本體依據的原則 從前面的章節中可以看出,這里所說的本體是人為設計的關于某個領域的概念模型 的一種表示。g r u b e r 曾經給出了5 條設計本體的基本原則 9 1 。 1 明確性、客觀性和完整性:本體應該用自然語言對所定義的術語給出明確的、 客觀的語義定義,即必須有效地說明所定義術語的意思。而且,當定義可以用邏輯公理 表達時,它應該用邏輯公理表示,即形式化表達。同時,所給出的定義必須是完整的, 河北大學文學碩士學位論文 能夠完全表達所描述術語的含義。g r u b e r 提出,在可能的條件下,完整的定義( 即,同 時由必要條件和充分條件表示的謂詞) 要比一個部分定義( 即,僅用必要條件或充分條 件定義的謂詞) 要好。 2 一致性:一個本體應該是前后一致的,也就是說,由它推斷出來的概念定義應 該與本體中的概念定義一致。由術語得到的推論與術語本身的含義是相容的。至少,所 定義的公理以及用自然語言進行說明的文檔應該是一致的。 3 可擴展性:一個本體提供一個可共享的詞匯,它應該盡可能提供概念的基礎, 同時,它的表示應該便于人們對這個本體概念進行擴展和進化。 4 編碼誤差盡可能小:本體應該處于知識的層次,而與特定的符號及編碼無關。 本體的編碼誤差應該控制在盡可能小的范圍內。 5 最小本體承諾:一個本體應該在提供必須的共享知識的條件下,要求有最小的 本體承諾。也就是說,它應該對所模擬的事物產生盡可能少的推斷,而讓共享者自由地 按照他們的需要去運用這個本體,使之專門化、實例化。 除了g m b e r 以外,許多研究者根據自己的實踐,進一步提出了其他本體設計原則, 如,j a r p i r e z 等人提出,本體設計應該遵循以下3 條設計原則: 1 盡可能使用標準術語; 2 同層次概念之間保持最小的語義距離; 3 可以使用多種概念層次,采用多重繼承機制來增加表達能力。 但是,目前還不存在公認的本體設計原則和評價標準以及質量保證標準,所有這些 本體設計都是十分籠統和抽象的,因此,這些原則需要我們在實踐中根據客觀情況的不 同,在不一致的原則中間進行權衡,靈活掌握。這也正是我們進行更加深入研究的理由 之一。 2 5 本體的分類 目前關于本體的研究日益廣泛,尤其是國外。不同的研究機構都建立了各具特色的 本體。針對各種不同的本體,也出現了不同的分類方法,主要有以下三種分類方法: 1 根據本體的應用主題分類 根據應用主題的不同,本體可以分為以下5 類【1o 】: r 第2 章本體介紹 ( 1 ) 領域本體:領域本體在一個特定的領域內可以得到廣泛的應用,它提供的是 該領域特定的概念定義和概念之間的關系,提供該領域發生的活動以及主要理論和基本 原理等。對特定領域的本體研究和開發目前已經涉及許多領域,包括企業本體、醫學概 念本體、酶催化生物學本體、陶瓷材料機械屬性本體。 ( 2 ) 知識表示本體:研究重點是語言對知識的表達能力。典型的有斯坦福大學知 識系統實驗室提供的一種稱為知識交換格式( k i f , k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的知 識描述語言,以及可以在線將各種知識轉換為k i f 的本體服務器o n t o l i n g u a 。目前普遍 認為,所有其他的知識表示形式都可以轉換為k i f 的形式。 ( 3 ) 通用和常識本體:關注于常識知識的使用。中國科學院數學所承擔的國家自 然科學基金重點項目“常識知識的實用研究”中開發的結合a g e n t 和本體的知識庫p a n g u 也屬于通用知識本體的研究范疇。 ( 4 ) 任務本體:也稱為方法本體,是本體研究的另一個分支,主要研究可共享的 問題求解方法,這里的推理方法與領域無關,任務本體主要涉及動態知識,而不是靜態 知識。具體的研究主題包括:通用任務、與任務相關的體系結構、任務方法結構、推理 結構和任務結構等。 ( 5 ) 語言學本體:是指關于語言、詞匯等的本體。典型的實例有g u m ( g e n e r a l i z e d u p p e rm o d e l ) 并i :l 普林斯頓大學研制的w o r d n e t 。 2 根據本體表示的形式化程度分類 根據表示的形式化程度不同,本體可以分為以下4 類【l l 】: ( 1 ) 完全非形式化:完全采用自然語言表示,結構非常松散,典型的有術語列表。 ( 2 ) 結構非形式化:采用受限的或結構化的自然語言進行表示,能有效提高本體 的清晰度,減少二義性。如,e m e r p r i s eo n t o l o g y 的文本版本。 ( 3 ) 半形式化:采用一種人工定義的形式化語言進行表示,目前已有許多研究機 構開發指定了這類形式化本體表示語言,采用o n t o l i n g u a 描述的本體都屬于這一類。 ( 4 ) 完全形式化:所有術語都具有形式化的語義,并能在某種程度上證明包括一 致性和完整性方面的屬性。 3 根據研究的層次分類 本體的研究和開發工作是在不同的層次上進行的。根據本體的研究層次,可分為【l 2 j : 河北大學文學碩士學位論文 ( 1 ) 頂層本體:主要研究非常通用的概念,如空間、時間、事務、對象、事件、 行為等,他們完全獨立于特定的問題或領域。因此可以說頂層本體是在一個很大范圍內 的知識層次。 ( 2 ) 領域本體:研究與一個特定領域相關的術語或關系。 ( 3 ) 任務本體:定義通用任務或推理活動。任務本體和領域本體處于同一個研究 和開發層次。它們都可以應用頂層本體中定義的詞匯來描述自己的詞匯。 ( 4 ) 應用本體:描述特定的應用,它既可以應用特定的領域本體中的概念,又可 以引用出現在任務本體中的概念。 2 6 本體的應用 本體構建的目的就是應用。這方面的研究遍布于文本分類、人工智能、信息管理、 知識管理相關的各個領域,典型的應用有: 1 基于語義的文本分類和信息檢索,特別是網絡搜索引擎和數字化圖書館。在信 息檢索領域和數字化圖書館中,加入本體的思想,可以在檢索過程中更加準確的對文本 進行定義和分類,快速找到相關的信息。例如,在信息檢索過程中,輸入檢索詞語“第 一語言教學”,加入本體論的思想后,有關“母語教學”的文章也會出現在檢索結果中, 可以在很大程度上提高網絡信息的利用率。 2 基于本體的數據集成、機器學習等。數據集成和機器學習需要了解某個領域的 全部知識,本體思想的引入,可以對數據集成和機器學習提供一定的便利。 3 領域本體的應用。在各個不同的領域建立不同的本體,這樣就可以有針對性分 析事件,提高研究的效率。 4 語義w e b 服務。語義w e b 是w e b 未來的發展趨勢,本體技術提供了語義w e b 描述詞匯的精確定義,為真正實現w e b 信息的語義表示奠定了基礎。 5 在線元數據管理和自動信息發布。在線元數據管理和自動信息發布是一個實時 的信息處理過程,有了本體的參與,可以使準確率得到進一步提高。 2 7 本章小結 本章主要介紹了有關本體的理論知識,了解了本體的概念來源于哲學,隨著科學的 1 0 第2 章本體介紹 發展正在被廣泛應用于科學研究的各個領域;介紹了研究者對本體概念的不同理解,目 前比較認同的觀點是本體論是對概念化的精確描述;本體的組成包括概念類、關系、函 數、公理和實例5 種元素;還分析了建立本體必須依據的原則,即明確性、客觀性、完 整性、一致性、可擴展性、編碼誤差盡可能小、最小本體承諾等,為下一章中語言學領 域本體的建構奠定了理論基礎。另外還介紹了在三種不同的分類標準下對本體的分類情 況;最后簡單地說明了本體的應用情況,使我們對本體的概念產生了一個全面立體的認 識。 河北大學文學碩士學位論文 第3 章構造領域本體所使用的關鍵技術 基于本體的文本分類能否j i 頃, n 實現,主要取決于領域本體的構建。而領域本體構 建是否成功,又是由其中若干個關鍵技術的選擇和運用所決定的。主要包括:文本表示、 特征項粒度選擇、特征提取和語義推理。 3 1 文本表示 計算機不能識別人類的語言,所以需要文本表示的過程,把人類的自然語言變成計 算機可以看懂的符號。目前,在信息處理過程中,文本的表示大多數采用向量空間模型 ( v e c t o rs p a c em o d e l ,v s m ) 的方式【h 】。 本文采用向量空間模型的方式來表示文本:給定一個自然語言文檔d ,在選定了特 征項以后,用d = o l ,w l ;s 2 ,w 2 ;如,) 來表示文檔d ,其中墨= ( f _ 1 ,) 為特征項, w 為s i 的權重,規定墨= ( f _ 1 ,) 互不相同。把向量d ( w 1 w 2 ,h ) 叫做文檔d 的 向量表示或者向量空間模型,文本用向量d 來表示。 接下來,要對文本進行分詞處理。中文分詞一般采用最大匹配法 1 4 】。最大匹配法是 機械分詞方法的一種,按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典 中的詞條進行匹配,如果能夠在詞典中找到某個字符串,則匹配成功,識別出這個詞語。 按照由左到右的方向匹配的方法叫做正向最大匹配法,由右到左的方向進行匹配的方法 叫做逆向最大匹配法。雙向最大匹配法( 正向最大匹配法和逆向最大匹配法的結合) 速 度快、詞表開放、格式簡單容易擴充。 對分詞結果進行詞性標注,這個過程中還要完成對文本的去虛詞處理,建立一個有 序的虛詞詞表是前提。對從分詞結果中提取到虛詞采用二分查找來判斷這個詞是否在虛 詞詞表中,如果在則丟棄;如果不在則保留。 第3 章構造領域本體所使用的關鍵技術 3 2 特征項粒度選擇 使用向量空間模型方法表示文本,并對文本分詞和詞性標注以后,下面就要對文本 進行特征抽取。采用什么標準抽取特征項,對領域特征項的確定具有很大的影響。一般 的特征項的抽取有三種粒度可供選擇:一個是字,一個是詞或短語,一個是概念特征。 1 字。使用字特征的特征抽取過程最簡單。那是因為在國家標準g b 2 3 1 2 8 0 中 定義的常用漢字僅為6 7 6 3 個,由于這些常用漢字數目比較少,所以抽取過程所需的時 間和空間的開支都不會很大,效率也比較高。但是,就字本身而言,對文本表示的功能 性很差,根本無法獨立完成對文本特征的表示,更不能準確的表達文本之間的語義信息, 不可取。 2 詞或短語。詞是漢語中能夠準確表達語義信息的最小的語言單位。與字相比, 在語義表達方面的優勢顯而易見。如果不計算專業領域的詞匯,通用的詞和短語有1 0 萬左右,使用詞特征就要面臨復雜的分詞問題,而同時,并不是說所有的詞語和短語都 適合作為特征項。在詞頻統計時,會出現很多頻率很高,但是對文本特征表現力卻很弱 的詞語或短語,就不能作為特征項;相反的,也會有很多出現頻率不高,但是卻可以一 詞定類的詞或短語,比如“復元音韻母”,只要出現這個詞語,幾乎就可以判定文本的 特征,從而確定文本的類別。由此可見,使用詞或短語的特征進行特征抽取具有很大的 不準確性。 3 概念特征:詞語之間往往都存在同義關系、從屬關系、近義關系等豐富的語言 現象。理清這些概念層次之間的關系,綜合以上詞和短語的優點,就可以對文本特征進 行很好的抽取,是一種比較科學的特征抽取方法。 綜合比較以上三種特征抽取粒度的優劣,本文采用概念特征的標準對文本特征項進 行選擇。這樣既可以避免字特征文本表示功能較弱的缺點,又可以在一定程度上彌補單 純靠詞或短語表示文本特征的不確定性,從而保證抽取特征項的準確性和科學性。 3 3 特征選擇 經過分詞以后的文本,詞匯量很大,而且用v s m 表示的文本,向量空間的維數很 高,不利于計算機處理;另外,每個詞語對表現文本主題的貢獻程度不二樣,有些詞出 洞北大學文學碩士學位論文 現頻率很高,但是對確定文本類別沒有太大幫助;有些詞出現頻率雖然不高,但是卻可 以一詞定類。這就需要一個特征選擇的過程。 特征選擇的基本思想是:在對文本中的關鍵詞進行選擇之后,計算每個詞語的詞頻, 并將經過學習預設的重要度作為權值,對所有的特征按照其權值的大小排列,通過設定 閾值或限定維數,可以得到文檔的特征集。由此可見,特征選擇是建立在詞頻統計和計 算權重的基礎上的。經過詞頻統計和權重計算,就能生成文本類別的核心向量,這些向 量中的特征詞可以認為是能代表該類文本特征的類別領域詞 1 5 1 。 t f i d f 方法是文本分類過程中特征提取使用最多的方法之一。其中,t f :t e r m f r e q u e n c y 為頻率因子,表明文檔中出現該特征項的頻度;i d f :i n v e r s ed o c u m e n t f r e q u e n c y 為特征項倒排文檔頻率,表明特征項在文檔集合中分布情況的量化。一般的 特征選擇過程中都是采用這種方法來構造詞語權值評價函數,在系統中采用的是由人工 分類好的訓練語料,讓系統進行分析提取。為了保證語言學文獻中的常用詞( 例如“形 式名詞”中的“名詞詞條) 得到選擇,降低i d f 的影響,同時為了得到一個單位空間 向量,還要對特征向量的各個參量進行歸一化處理。 本文采用改進的t f i d f 算法對文獻進行特征選擇。首先本文以概念特征作為特征 選擇的標準,那么給定兩個詞語,計算它們之間的語義距離。這里,把語義距離定義為 兩個詞對應的屬性或概念在特征庫中的最短距離。如果兩個詞中有一個詞的屬性無法在 特征庫中找到,或者兩個詞的屬性分別處于兩個不同的特征庫,就可以認為這兩個詞之 間的語義距離為d 1 6 1 。 設兩個詞u 、v 之間的語義距離為p ,那么u 、礦之間的相似度可以用公式( 1 ) 來 計算: s c u ,y ,= 孑一p 日一7 。 ;三三; c , 這里的日和三是兩個詞之間相似度可能取得的最大值和最小值。在這里,令h = 1 , 三= o 。d 是u 、y 所在的特征庫中兩個實例的語義距離可能的最大取值。即如果某個 特征庫中深度最大的兩個實例或屬性的深度分別為d l 、皿,那么這個特征庫的d = 日 + d ,。注意,根據上面所說,當p o o 時,u 、v 的實例或屬性必定是在同一特征庫中, 第3 章構造領域本體所使用的關鍵技術 因此,關于d 的定義是合理的。以此類推,就可以得到包含實例或屬性之間具有語義關 系的特征庫。 3 4 語義推理 基于本體的分類過程,必須以特征項之間的語義關系作為基礎,如何確定詞語之間 的語義關系呢? 這里就涉及到一個概念:語義推理。 語義推理就是通過擴展詞語之間的語義關系來確定領域特征項,將所有隱含的信息 都顯式地描述出來,以此來構建領域本體庫。語義關系是建構本體特征庫過程中,聯系 概念與實例的中心環節,因此作為特征庫中的聯系各級節點之間的紐帶而存在。這樣的 語義推理完成了對元數據概念的語義擴展,主要包括: ( 1 ) 同義詞關系( s y n o n y m ) 擴展:同義詞是意思相同或非常相近的兩個或多個詞 語,它們之間往往可以相互替換。如“聲調”和“音調 、“復元音韻母 和“復合元音 韻母”等。 ( 2 ) 上下位關系( h y p e m y m y h y p o n y m y ) 擴展:就是包含與被包含的關系。下位 詞是上位詞的特例,如“聲調”和“陰平、陽平、上聲、去聲 之間的關系,其中“聲 調”是上位詞,“陰平、陽平、上聲、去聲”是下位詞。在分類過程中,有時通過概念 毛 的上下位概念也能分析出潛在的有用信息。 ( 3 ) 相似詞擴展:相似的兩個詞之間具有兄弟關系,但不是同義詞或者上下位詞, 如“陰平”、“陽平 、“上聲”、“去聲 四個概念相互之間的關系。 ( 4 ) 歧義概念的標注:自然語言中存在很多一詞多義的現象。為了排除歧義的干擾, 我們借助文檔特征進行唯一標注,這樣就可以達到消除歧義的效果。 這些初始概念經過語義分析,可以防止概念的冗余,避免重復的概念,并且通過領 域專家的確認后,可以成為領域特征項,作為本體的核心概念或者實例,在本體庫建構 過程中確定下來,在以后的不斷完善過程中還可以作為新的特征項,源源不斷地擴充進 來。 河北大學文學碩士學位論文 ! il 皇皇詈暑詈皇詈皇皇曼皇曼! 曼! 曼詈鼉曼曼皇苧皇墨置曼! 曼曼! 詈! 詈! ! 曼! ! ! 暑! ! ! 曼! ! ! ! 詈皇! ! ! ! 暑! ! ! ! ! 皇! ! ! 曼! ! 詈皇曼! 暑! ! ! ! 苧曼皇! 詈! ! ! 曼! ! ! ! ! ! ! ! ! 鼉詈! 皇 3 5 本章小結 本章分析了建構領域本體所需的關鍵技術,在用向量空間模型對表示文本的前提 下,從概念特征出發對文本進行特征選擇。采用經過一定改進的t d i d f 算法,確定領 域特征項。還應該明確概念之間的語義關系,包括上下位關系、同義關系、近義關系等。 只有首先明確構造領域本體所需要的關鍵技術,才能為領域本體構建工作提供技術支 持,有利于研究工作的開展。 第4 章語言學領域本體的構造 第4 章語言學領域本體的構造 4 1 構造領域本體的必備條件 4 1 1 本體形式化描述語言的選擇 本體形式化描述語言直接影響本體模型的表達能力和可擴展能力。目前的形式化 本體描述語言非常多,主要有r d f 和r d f s 、o i l 、d a m l 、o w l 、k i f 、s h o e 、x o l 、o c m l 、 o n t o l i n g u a 、c y c l 、l o o m 1 7 】。經過比較,我們選用了o w l ( f f e bo n t o l o g yl a n g u a g e ) 。 o w l 的優點是以w e b 資源為描述對象,具有良好的應用前景。另外,o w l 是基于描 述邏輯的,所謂描述邏輯( d e s c r i p t i o nl o g i c ,d l ) 是一階謂詞邏輯的可判定子集, 能夠提供可判定的推理服務,并且具有語義特征【1 8 】。這就意味著基于描述邏輯的o w l 的函數和公理都有相應的邏輯描述表示,利用o w l 構建的本體庫除了具備良好的表現能 力外,還具有強大的推理能力。這對于w e b 資源的邏輯檢測、本體集成、知識整合是非 常重要的。 4 1 2 本體開發工具的選擇( p r o t 6 9 6 + o w lp l u g i n ) 目前國內外已經有許多成熟的本體開發平臺軟件可供選擇。經過我們對部分常見工 具的試用與比較,選擇的是其中的佼佼者p r o t e g e 3 2 1 【1 9 】( 用戶界面截圖如圖4 1 所 示) 。p r o t 6 9 6 是由斯坦福大學醫學信息化研究小組開發的,一個基于j a v a 環境、開放 式架構的開源知識建模工具【2 0 】。其擴展的o w l 插件是目前最為強大的o w l 本體構建工具。 p r o t 6 酣不僅具有良好的可擴展性和簡單靈活的用戶定制界面,還具有如下一些特性: 1 支持圖形化本體編輯模式; 2 支持數據庫存儲模式; 3 基于o w l 數據庫的多人開發模式和支持邏輯檢測功能等。 最新版本的p r o t 6 9 0 還增加了對資源多語言描述的支持。更為重要的是,p r o t 6 9 6 還擁有超過5 0 0 0 0 人的注冊用戶和郵件列表用戶,高效的技術服務支持以及豐富的技術 :j i 鑾蘭圣:墨:蘭磐鎏圣 資料和本體資源。這些都極大地方便了我們本體構建的學習和問題的解決。 mw 1 3 1 h7 * ! m # 。 皓目t 悃om 凸 蠶蠶西i 薔蟊 一6 ”i _ f 】 圈4 1p r o t 6 9 6 32 1 用戶界面截圈
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 空調制冷劑的選擇與應用考核試卷
- 花畫工藝品的旅游紀念品開發考核試卷
- 陶瓷企業的品牌形象塑造與社會責任考核試卷
- 金融行業利率市場化與匯率形成考核試卷
- 麻醉藥的選擇
- 損傷控制外科
- 呼吸系統疾病病情觀察
- 呼吸功能衰竭病癥概述
- 外科值班處理規范與流程
- SDH-IN-24-生命科學試劑-MCE
- 桃花源記的試題及答案
- 工廠計件獎罰管理制度
- 2024年陜西省西安市初中學業水平模擬考試地理試卷
- 2025黑龍江省交通投資集團限公司招聘348人易考易錯模擬試題(共500題)試卷后附參考答案
- cpsm考試試題及答案
- 匯川技術高壓變頻器技術標準教材
- 2025年玻璃鋼圍網漁船項目市場調查研究報告
- 江蘇省南京2022年中考歷史試卷(解析版)
- 公司用人培養協議書
- GB/T 45593-2025精細陶瓷微磨損試驗測定涂層的耐磨性
- 2025年中國啤酒專用冷酶劑市場調查研究報告
評論
0/150
提交評論