語義web中的本體學(xué)習(xí)OntologyLearningfortheSemanticWeb_第1頁
語義web中的本體學(xué)習(xí)OntologyLearningfortheSemanticWeb_第2頁
語義web中的本體學(xué)習(xí)OntologyLearningfortheSemanticWeb_第3頁
語義web中的本體學(xué)習(xí)OntologyLearningfortheSemanticWeb_第4頁
語義web中的本體學(xué)習(xí)OntologyLearningfortheSemanticWeb_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1語義web中的本體學(xué)習(xí)Ontology Learning for the Semantic Web報告人:李 曼2主要內(nèi)容研究背景研究背景本體的學(xué)習(xí)本體的學(xué)習(xí)本體的評價本體的評價相關(guān)工作相關(guān)工作未來的研究方向未來的研究方向31.研究背景 BernersLee在2000的XML大會上正式提出了語義web。 語義web是對當(dāng)前web的擴展。語義web上的信息具有定義良好的含義,使得計算機之間以及人類能夠更好的彼此合作。 41.研究背景 語義web采用多層次的表示框架,本體位于從文檔描述到知識推理轉(zhuǎn)折的層次,具有重要的地位。本體的構(gòu)建是實現(xiàn)語義web的關(guān)鍵環(huán)節(jié)。51.1 本體 Ontology是共

2、享概念模型的明確的形式化規(guī)范說明。 “概念模型概念模型”:指Ontology是通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型。 “明確明確”:指Ontology所使用的概念及概念的約束都有明確的定義。 “形式化形式化”:指Ontology是計算機可讀的(即能被計算機處理)。 “共享共享”:指Ontology中體現(xiàn)的是共同認可的知識,反映的是相關(guān)領(lǐng)域中公認的概念集(即Ontology針對的是團體而非個體的共識)。 61.1 本體 Ontology的結(jié)構(gòu)是一個五元組 O:= C, R, Hc,rel,AO C:概念; R:關(guān)系; Hc:概念層次,例如HC(C1,C2); rel:概念間的關(guān)系,

3、 例如,rel(R)(C1,C2); AO:用某種邏輯語言表示的一組本體公理。C1是C2的子概念C1和C2具有關(guān)系R71.2 本體的應(yīng)用本體的應(yīng)用語義web 81.2 本體的應(yīng)用本體的應(yīng)用問題問題 :XML在處理語義上存在兩個問題在處理語義上存在兩個問題 同義詞; 一詞多義 解決解決:引入本體:引入本體 本體通過對概念和概念間關(guān)系的嚴格定義來確定概念的精確含義,表示共同認可的、可共享的知識。 對于本體來說,Author,Creator是同一個概念,而Doctor在大學(xué)和醫(yī)院分別表示的是兩個概念。因此,在語義web中,本體是解決語義層次上web信息共享和交換的基礎(chǔ)。91.2 本體的應(yīng)用本體的應(yīng)用

4、自然語言理解 全面的理解自然語言需要整合大量的知識源。以本體形式表示的領(lǐng)域知識是深入理解文本的基礎(chǔ)。目前在基于本體的信息抽取方面已有一些研究成果。知識管理 知識管理主要是處理一個組織中知識的獲取、維護和訪問。其中,本體可以用于對無結(jié)構(gòu)信息進行語義標注,從而使得信息的整合和訪問更容易。101.2 本體的應(yīng)用本體的應(yīng)用電子商務(wù) 在電子商務(wù)中,交易的自動化要求對商品進行形式化描述,因此,需要一個標準化的詞匯表本體。本體有助于對內(nèi)容意義的精確、高效通信,同時促使系統(tǒng)的交互式操作、重用和共享等一系列的性能得以提高。111.2 本體的應(yīng)用本體的應(yīng)用 從上述應(yīng)用可以看出,這些應(yīng)用領(lǐng)域的一個共同需求是共享某個

5、領(lǐng)域內(nèi)的知識。而提供共享概念模型的明確的形式化規(guī)范說明正是本體的主要目標。所以,這些領(lǐng)域的許多難題都能夠通過使用本體來解決。 121.3 本體的構(gòu)建本體的構(gòu)建手工手工:費時費力,容易出錯全自動全自動:適用性不強半自動半自動:可行,其核心技術(shù)是本體的學(xué)習(xí)利用知識發(fā)現(xiàn)技術(shù)從數(shù)據(jù)源中獲取知識132. 本體學(xué)習(xí) 2.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 2.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架 2.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) 2.4 2.4 本體學(xué)習(xí)算法本體學(xué)習(xí)算法142. 本體學(xué)習(xí) 2.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 2.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架 2.3

6、2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) 2.4 2.4 本體學(xué)習(xí)算法本體學(xué)習(xí)算法152.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期(導(dǎo)入(導(dǎo)入/ /重用、抽取、修剪和精練)重用、抽取、修剪和精練)162.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 導(dǎo)入和重用階段導(dǎo)入和重用階段 該階段可以作為整個本體學(xué)習(xí)過程的開始。主要步驟:選擇有關(guān)的本體,并定義導(dǎo)入策略。例如,定義一個本體包裝器(wrapper),支持從一種本體描述語言轉(zhuǎn)換為另一種語言。合并導(dǎo)入的概念結(jié)構(gòu),作為其它階段的基礎(chǔ)。172.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 抽取階段抽取階段 利用導(dǎo)入的本體,抽取出新的知識。在這個階段,本體學(xué)習(xí)技術(shù)

7、部分依賴于給定的本體部分,所以,當(dāng)本體被修訂過一次后又會引起新的抽取結(jié)果,這是一個反復(fù)增長的模型。182.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 修剪階段修剪階段 本體結(jié)構(gòu)的修剪可以使本體適應(yīng)給定的應(yīng)用。 該階段需要考慮兩個方面:對本體中某個特殊部分的修剪將如何影響整個本體用戶驅(qū)動保留或修剪本體元素的策略 應(yīng)用驅(qū)動192.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 精練階段精練階段 利用給定的領(lǐng)域本體,以更細的粒度完善本體 。 精練和抽取具有類似的功能。原則上,同樣的算法既可以用于抽取也可以用于精練。抽取主要用于整個本體(或至少是本體中非常有意義的部分)的建模,而精練是對目標本體的精細的調(diào)整。 202

8、.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 上述四個階段都可以單獨執(zhí)行,且某些階段可以被跳過。 例如,導(dǎo)入一個本體,然后根據(jù)指定的應(yīng)用程序數(shù)據(jù)直接修剪該本體。 212. 本體學(xué)習(xí) 2.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 2.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架 2.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) 2.4 2.4 本體學(xué)習(xí)算法本體學(xué)習(xí)算法222.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架(TEXT-TO-ONTO)232.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架輸入數(shù)據(jù)源輸入數(shù)據(jù)源本體,一種特殊的數(shù)據(jù)源。例如,詞匯語義網(wǎng)絡(luò)(WordNet,GermaNet),領(lǐng)域本體,詞典(輕量級本體

9、)。SchemaDababase Schema,例如關(guān)系數(shù)據(jù)庫模式Web Schema,例如DTD,XML-Schema242.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架輸入數(shù)據(jù)源輸入數(shù)據(jù)源實例,即數(shù)據(jù)庫或知識庫中的實例集合,它們是領(lǐng)域概念的外延描述。半結(jié)構(gòu)化數(shù)據(jù)自然語言文本252.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架主要的組件主要的組件數(shù)據(jù)導(dǎo)入和處理組件數(shù)據(jù)導(dǎo)入和處理組件發(fā)現(xiàn)、導(dǎo)入、分析和轉(zhuǎn)換有關(guān)的輸入數(shù)據(jù)。產(chǎn)生一組預(yù)處理數(shù)據(jù)作為算法庫組件的輸入本體包裝器本體合并器基于本體的文檔爬蟲器自然語言處理系統(tǒng)重要文檔包裝器將字典或一些半結(jié)構(gòu)化文檔轉(zhuǎn)換為指定格式轉(zhuǎn)換模塊將自然語言處理后的文檔轉(zhuǎn)換為指定格式2

10、62.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架主要的組件主要的組件算法庫組件算法庫組件提供許多本體抽取和本體維護算法。可以采用綜合多策略學(xué)習(xí)結(jié)果的方法,即標準化各種學(xué)習(xí)算法的結(jié)果,然后綜合它們。本體構(gòu)建和管理環(huán)境本體構(gòu)建和管理環(huán)境構(gòu)建本體(手工)。提供圖形界面,支持導(dǎo)出本體到標準的本體描述語言,如RDF,OWL等。本體學(xué)習(xí)可以看作是本體構(gòu)建環(huán)境的一個插件。272.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架主要的組件主要的組件圖形用戶界面和管理組件圖形用戶界面和管理組件本體工程師使用該組件與本體學(xué)習(xí)組件交互。支持本體工程師選擇相關(guān)的數(shù)據(jù)支持本體工程師選擇參數(shù)和本體學(xué)習(xí)算法提供全面的結(jié)果集視圖 282.2

11、2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架 總之,目標應(yīng)用是衡量結(jié)果本體的尺度。因此,實際的應(yīng)用數(shù)據(jù)可以作為本體學(xué)習(xí)的輸入數(shù)據(jù)。292. 本體學(xué)習(xí) 2.1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 2.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架 2.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) 2.4 2.4 本體學(xué)習(xí)算法本體學(xué)習(xí)算法302.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)源數(shù)據(jù)源本體文檔312.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù)本體導(dǎo)入和處理的步驟本體導(dǎo)入和處理的步驟將已有的本體轉(zhuǎn)換為本體學(xué)習(xí)框架可以處理的表示形式。若只有一個本體可供導(dǎo)入,則使用本體包裝器本體包裝器

12、將已有的本體描述語言轉(zhuǎn)換為本體學(xué)習(xí)框架可以識別形式;若給出了一個以上的本體,需要使用本體合并算法本體合并算法(例如FCA-Merge)將給出的本體合并成一個共同的本體。 322.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) 本體包裝器本體包裝器 (例如:導(dǎo)入(例如:導(dǎo)入WordNetWordNet到到Text-to-OntoText-to-Onto中)中) WordNetWordNet中包含的本體原語中包含的本體原語SynSetSynSet:同義詞集合同義詞集合HypernymHypernym:上位詞集上位詞集HyponymHyponym:下位詞集下位詞集HolonymHolonym:

13、整體詞集整體詞集MeronymMeronym:部分詞集合部分詞集合AntonymAntonym:反義詞集合反義詞集合例如,如果例如,如果X X是一種是一種Y Y,則則Y Y是是X X的上位詞的上位詞, , X X是是Y Y的下位詞的下位詞例如,如果例如,如果X X是是Y Y的一部分,則的一部分,則Y Y是是X X的整體詞,的整體詞,X X是是Y Y的部分詞的部分詞332.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù)從從WordNetWordNet到到Text-to-OntoText-to-Onto本體結(jié)構(gòu)本體結(jié)構(gòu)O O的映射的映射WordNetWordNetOntology OOnto

14、logy OSynSetC,LcHyperonym,HyponymHcMeronym,HolonymSAntonymS概念C的同義詞集合存到L中,并映射到概念C上下位關(guān)系被直接映射到概念層次Hc整體詞關(guān)系被映射到關(guān)系名“has-part”,部分詞關(guān)系被映射到關(guān)系名“part-of”反義詞被映射到關(guān)系名“opposite-of”342.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù)本體合并算法(本體合并算法(FCA-MergeFCA-Merge)步驟步驟抽取概念的外延描述,計算兩個形式上下文K1和K2。 合并這兩個形式上下文,然后生成一個概念格。基于概念格生成最終的合并過的本體。 352.

15、3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù)第一步第二步第三步本體本體文檔集本體362.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) FCA-Merge(第一步):生成兩個形式上下文。 形式上下文是一個三元組K:(G,M,I),其中,G是一組對象的集合;M是一組屬性的集合;I是G和M間的二元關(guān)系,即I GM,(g,m)I讀作對象g具有屬性m。 372.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù)382.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) FCA-Merge(第二步):合并上一步生成的兩個形式上下文,生成一個概念格。392.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技

16、術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù)合并過的形式上下文文檔名本體1中的概念 本體2中的概念使用TITANTIC算法進行概念聚簇概念格402.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) FCA-Merge(第三步):從概念格生成新本體412.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù)本體1中的Hotel本體2中的Hotel本體2中的Accommodation合并合并合并生成新概念或關(guān)系422.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) FCA-Merge算法小結(jié)算法小結(jié) 輸入:兩個本體和一個自然語言文檔集 輸出:一個合并過的本體。 對輸入數(shù)據(jù)有如下要求:文檔集應(yīng)該和每個源本體都相

17、關(guān)。文檔集應(yīng)該包含源本體中的所有概念。文檔集應(yīng)該能夠很好的分離概念。432.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù)文檔的收集、導(dǎo)入和處理文檔的收集、導(dǎo)入和處理步驟步驟使用一個以本體為中心的文檔爬蟲來搜集網(wǎng)上的相關(guān)文檔。使用自然語言處理技術(shù)來進行文檔的處理。 使用一個文檔包裝器將半結(jié)構(gòu)化文檔(如領(lǐng)域字典)轉(zhuǎn)換成本體學(xué)習(xí)框架可以識別的格式(如RDF格式)。將處理過的文檔轉(zhuǎn)換為本體學(xué)習(xí)算法可以識別的格式。 442.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) 總之,將數(shù)據(jù)轉(zhuǎn)換為需要的格式是一個復(fù)雜的任務(wù),該步驟處理的質(zhì)量直接影響了下一步算法的生成結(jié)果。 452. 本體學(xué)習(xí) 2.

18、1 2.1 本體學(xué)習(xí)周期本體學(xué)習(xí)周期 2.2 2.2 本體學(xué)習(xí)框架本體學(xué)習(xí)框架 2.3 2.3 數(shù)據(jù)的導(dǎo)入和處理技術(shù)數(shù)據(jù)的導(dǎo)入和處理技術(shù) 2.4 2.4 本體學(xué)習(xí)算法本體學(xué)習(xí)算法46 2.4 2.4 本體學(xué)習(xí)算法本體學(xué)習(xí)算法本體抽取算法本體抽取算法 詞條的抽取:(1)計算詞頻 (2)利用字典抽取詞條 分類關(guān)系的抽取:(1)使用層次聚類技術(shù)(2)使用模式匹配技術(shù)(字典) 非分類關(guān)系的抽取:使用基于關(guān)聯(lián)規(guī)則的挖掘算法47 2.4 2.4 本體學(xué)習(xí)算法本體學(xué)習(xí)算法本體維護算法本體維護算法 本體的修剪(發(fā)現(xiàn)和刪除無關(guān)的概念)(1)基線修剪(2)相對修剪本體的精練(對本體的精細調(diào)整和增量擴展)主要思想是

19、先找出未知的詞條,然后從本體中找出與其相似的概念并提交給用戶,最后由用戶決定該未知詞條的意義。 483.本體的評價目前還沒有評價標準。常用的評價方法常用的評價方法基于應(yīng)用的評價,即通過使用本體的應(yīng)用來評價本體本身。使用同一個標準對兩個本體交叉比較,例如把利用各種學(xué)習(xí)方法自動生成的本體和手工生成的本體相比較。493.本體的評價比較兩個本體的方法:比較兩個本體的方法:精度(precision)和召回率(recall)詞匯級的比較 概念級的比較 503.本體的評價精度precisionOL = 召回率recallOL = 其中,Ref是參照本體中元素的集合,Comp是比較本體中元素的集合。 |CompRefComp|RefRefComp學(xué)習(xí)生成的本體手工生成的本體513.本體的評價 詞匯級的比較詞匯級的比較 該方法基于編輯距離編輯距離(edit distance)串相似度: SM(Li,Lj):max(0, ) 0,1 |)| |,(|LjLimined(Li,Lj)Lj|)min(|Li|,|從一個串轉(zhuǎn)換到另一個串所需要的最少操作步驟例如ed(“TopHo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論