基于映射方法的敘詞表互操作研究_第1頁
基于映射方法的敘詞表互操作研究_第2頁
基于映射方法的敘詞表互操作研究_第3頁
基于映射方法的敘詞表互操作研究_第4頁
基于映射方法的敘詞表互操作研究_第5頁
已閱讀5頁,還剩1頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于映射方法的敘詞表互操作研究

作為一種多相操作技術,映射為兩個或多個單詞表的語言建立了關系,并自動轉換和連接單詞表。映射結果是關系的集合。映射方法應用到敘詞表互操作上即為敘詞表映射,敘詞表映射是解決知識組織體系互操作方法的一種技術,通過建立詞表間的映射關系可以實現主題間的交叉檢索和瀏覽,滿足用戶“一站式”檢索。不同的敘詞表在詞形、詞義和結構等方面存在的差異,使得映射成為一項非常復雜的工作。M.Doerr認為術語選擇、先組和后組程度、學科覆蓋范圍、語義概念和語義關聯的不同是影響敘詞表映射的主要問題。準確判定敘詞表術語的概念語義是保證映射質量的關鍵,依據一定的自動推理規則可減少敘詞表映射的人工量,降低映射的復雜度,本文通過實施敘詞表映射實驗,對敘詞表映射語義判定指導規則和自動推理規則進行探析。1科學表3asfaciencisp本文選擇劍橋科學文摘數據庫(CSA)中生物科學領域的兩部敘詞表中的部分敘詞進行實驗,分別是AquaticSciences&FisheriesAbstracts(ASFA)thesaurus(subjects)(水科學和漁業文摘敘詞表)第3版和LifeSciencesthesaurus(subjects)(生命科學敘詞表)第4版,前者是目標詞表,后者是源詞表。本文使用《ISO25964-2敘詞表與其他詞表的互操作》推薦的映射類型進行映射實驗,其中EM表示等價映射,NTM代表下位映射,BTM代表上位映射,RTM代表相關映射,為便于討論,筆者特增加NM,用以代表無映射。2映射術語的概念語義國際標準化組織制定的ISO25964-2中詳細探討了有關敘詞表映射的模型、映射類型、映射方法、映射數據的應用和管理等問題,萬維網聯盟(WorldWideWebConsrtium,W3C)的SKOS映射規范對詞表的映射類型及概念組配方式進行了研究,但都尚未對如何判斷映射術語的概念語義進行探討,本文根據實驗發現,總結出如下方法進行敘詞表術語概念語義的判斷,以保證映射數據的準確性。2.1定術語語義范圍的前提條件對敘詞表收錄的學科范圍進行界定,是確定術語語義范圍的前提條件。如果不考慮術語學科范圍而是根據詞形相似度進行映射,可能會建立錯誤的匹配,示例如表1所示:2.2敘詞語義范圍范圍注釋(ScopeNote,SN)說明該敘詞的使用范圍或定義范圍,為敘詞語義范圍的確定提供重要信息,在進行敘詞表映射時可參照范圍注釋以保證映射的正確性,否則就可能會忽視部分語義信息而建立錯誤的映射關系,示例如表2所示:2.3提供概念語義信息用代關系(USE、UF),即敘詞表中正式敘詞和非正式敘詞的關系,它們表示含義相同、用法相同或者相似的一組概念,兩者結合考慮可提供概念的相關語義信息?!坝迷~”代表“代詞”的語義范圍進行標引與檢索,映射時也需參照“用詞”的語義范圍才能進行準確的映射,否則可能建立錯誤的映射關系而影響映射數據的后續使用,示例如表3所示:2.4表結構信息的使用詞表本身的語義結構,即詞表中概念的上下位和相關關系等結構信息,為概念的界定提供重要信息,敘詞表概念映射宜參考語義關系,否則可能建立錯誤的映射關系,示例如表4所示:2.5源詞表的映射指導規則在目標詞表中,時間注釋屬于范圍注釋的一部分,是對因修訂和重版等原因致使其語義范圍發生改變的時間記錄,表示在某個時間點之前和之后該敘詞代表的語義發生變化,映射時應予以注意。在本實驗中,目標詞表在1982年進行了修訂,個別正式敘詞的使用情況和范圍發生了變化。具體來講有如下幾種情況:1用代詞的替換:1982年之前使用現在的“代詞”進行標引和檢索;2下位詞替代上位詞:1982年之前使用現在的下位詞進行標引和檢索;3上位詞替代下位詞:1982年之前使用現在的上位詞進行標引和檢索;4相關詞的替代:1982年之前使用現在的相關詞進行標引和檢索;5取代關系:1982年之前用于標引和檢索的詞刪除,由現在的新詞進行標引和檢索。其映射指導規則示例見表5。通過表5可知,術語時間注釋前后語義范圍如果沒有發生變化,如“用代”詞的代替和取代關系的變化,源詞表映射詞和目標詞表只需建立一種映射關系;如果術語在時間前后其語義范圍上發生變化,如上下位、相關關系的替代,為保證檢索的全面性,則需要與目標詞表概念建立兩種映射關系。3映射推理規則映射推理規則是指在已有映射關系和詞表結構關系的基礎上自動推斷新的映射關系,從而提高映射效率。常用的映射推理規則有繼承性規則和傳遞性規則,G.Fausto等人在探討如何計算建立詞表術語的映射關系時,也利用詞間的傳遞性進行映射關系的自動推導。本文即在大量實證實驗的基礎上,討論映射推理規則的使用場景以及實施效果。3.1等級映射關系基礎上的繼承性繼承性規則是在已建立的映射關系基礎上,繼承映射詞在詞表中的結構關系而自動推理出新的映射關系。W3C對映射的傳遞性規則進行了詳細探討,但對于繼承性規則的運用尚無詳細說明,本文即根據映射關系的不同類型,詳細討論繼承性規則的使用情況。3.1.1等價映射關系基礎上的繼承性該推理規則是指源詞表和目標詞表的術語建立等價映射后,源詞表映射術語在詞表中的上下位、相關和用代關系可以直接繼承到目標詞表中,推理出與目標詞表映射術語的映射關系。建立等價映射關系的術語無論在詞形還是詞義上都具有精確對等關系,因此各詞表的結構關系可以直接繼承到雙方,建立新的映射關系,示例如表通過表6分析可知,在建立等價映射關系的基礎上,根據詞表固有的結構關系(上下等級、相關關系)和同義詞關系(用代)可以進行映射關系的繼承。等價關系表現為用代關系,共有4種情況,見表7,其中PT代表“用詞”,NPT代表“代詞”。等價映射關系基礎上推測的等級映射關系有幾種情況(見圖1-圖4)。圖中雙箭頭代表精確等價映射,單箭頭代表包含關系,所有實體箭頭代表固有關系,而虛線箭頭代表根據傳遞性規則推導的等級映射關系。如圖1所示,已知A和A’,B和B’分別精確匹配,A和B在源詞表是上下位關系,則根據繼承性原則可推出:A上位匹配B’;A’上位匹配B;A’上位匹配B’。如圖2和圖3所示,在同一詞表中A和B是同義關系,即兩者是用代關系,已知源詞表的B和目標詞表的A’建立等級映射關系,那么可以依據繼承性規則,推理出A和目標詞表A’的等級映射關系。如圖4所示,即A和A’精確等價映射,A是B的上位類,B是C的上位類,A’上位映射B,則根據繼承性規則可知A’上位映射C。該情況是指上下位的跨級繼承,極易造成映射數據的失真。如果存在A’的下位詞C’,即已知A≡A’,B<A,C<B,B<A’,C’<A’,則C’≡C。3.1.2等級映射關系基礎上的繼承性該推理規則是指源詞表和目標詞表的概念建立等級映射后,源詞表映射詞的上下位、相關和用代關系可以進行選擇性繼承,推理出目標詞表映射詞和這些詞的映射關系。等級映射關系基礎上的繼承性規則和等價映射關系上的繼承性規則不同,它不是完全性繼承。由于等級映射關系的兩個概念間是非精確對等,在語義范圍上不一致,某一詞表映射詞的上下位、相關詞等不一定完全適用于另一個詞表的映射詞,因此只能是選擇性繼承。在等級映射關系基礎上可依據映射詞的用代關系、上下位等級和相關關系進行選擇性繼承。映射詞(用詞)和其代詞是同義等價關系,因此代詞可直接和另一詞表的映射詞建立等級映射關系;映射詞和其相關詞在語義上相關,但是語義不對等,如果進行繼承,相關詞直接和另一詞表的映射詞建立等級映射關系,在一定程度上會造成映射數據的失真,不建議使用;映射詞和其上、下位詞在語義范圍上具有包含和被包含的關系,需選擇利用其繼承性規則,具體而言有以下兩種情形,如圖5所示:如圖5所示:黑色實線代表固有的等級上下位關系,圓點虛線代表合法的繼承關系,長條虛線則代表非法的繼承關系。其中左圖表示:敘詞A和敘詞B建立上位匹配映射,B的鄰近上位詞是C,B的鄰近下位詞是D,那么只有B的上位詞可以直接繼承,得出<A>BTM<C>;B的下位詞不可以直接繼承,不能得出<A>NTM<D>。右圖表示:敘詞A和敘詞B建立下位匹配映射,B的上位詞是D,B的下位詞是C,那么只有B的下位詞可以直接繼承,得出<A>NTM<C;B的上位詞不可以直接繼承,不能得出<A>BTM<D>,示例如表8所示:從表8示例分析可知,在等級映射關系基礎上,根據在詞表中的等級結構進行繼承需遵循如下規則:源詞表映射詞和目標詞表建立上位映射關系,即目標詞表的術語是源詞表術語的上位映射詞,那么源詞表可繼承其上位映射詞的上位詞,推理出新的上位映射關系;上位映射詞的下位詞則不可以直接繼承,否則會推理出錯誤的映射關系,造成映射數據的失真。同理,源詞表映射詞和目標詞表建立下位映射關系,即目標詞表術語是源詞表術語的下位映射詞,那么源詞表可繼承其下位映射詞的下位詞,推理出新的映射關系,下位映射詞的上位詞不可以直接繼承。3.1.3相關映射關系基礎上的繼承性該推理規則是指源詞表和目標詞表的概念建立相關映射后,源詞表映射術語的上下位、相關和用代關系可以選擇性繼承,進而推理出目標詞表映射術語和這些詞的映射關系。由于相關映射關系表示兩個映射術語間的語義是相關的,語義范圍不一致,所以在相關關系基礎上進行等級、相關關系的繼承也存在很大的不確定性,如果據此推斷新映射關系,不完全合理,但也不是完全不合理,需要進一步的人工判別,示例見表9。3.2部曲:從目標詞表到中日之間關系的傳遞傳遞性規則是指利用已有的映射關系和詞間關系來傳遞和推導新的映射關系。3.2.1等價關系的傳遞性等價關系的傳遞性是指,如果敘詞<A>EM<B>,<B>EM<C>,則推出<A>EM<C>。W3C對詞間關系的傳遞性進行了界定,在其5種映射類型中,明確指出只有“精確匹配”具有傳遞性,即如果<A>skos:exactMatch<B>,<B>skos:exactMatch<C>,則<A>skos:exactMatch<C>。本文通過實驗過程總結等價關系傳遞性的使用場景,如兩部敘詞表進行映射,<A>EM<B>,<B>與<C>在目標詞表是用代關系(<B>EM<C>),則推出<A>EM<C>,即源詞表映射詞和目標詞表的正式敘詞建立了等價映射關系,那么通過等價關系的傳遞,源詞表映射詞也與正式敘詞相對的非正式敘詞建立等價映射關系。同理推斷,等價關系傳遞性也可用于多部敘詞映射中,如果存在一個中間敘詞表,其他詞表的詞分別和該詞表中的某個詞建立等價映射關系,那么根據傳遞性規則,可推出所有與中間敘詞表的同一個詞建立等價關系的術語都是等價映射關系,這樣可簡化映射過程,減少映射工作量。3.2.2等級關系的傳遞性等級關系的傳遞性指上、下位匹配關系的傳遞性,如果敘詞<A>BTM<B>,<B>BTM<C>,根據等級關系傳遞性,則推出<A>BTM<C>;如果<A>NTM<B>,<B>NTM<C>,根據等級關系傳遞性,則推出<A>NTM<C>。等級關系的傳遞性規則適用于兩部詞表或者多部詞表間的映射推理:兩部詞表映射,通過等級關系傳遞性可發現多級上位概念和下位概念;多部敘詞表映射,通過中間詞表可發現詞表間的等級映射關系。W3C的SKOSreference對Skos:broader/Skos:narrower和Skos:broaderTransitive/Skos:narrowerTransitive標簽屬性進行明確區分,前者不具傳遞屬性,用以表示直接相鄰的等級關系;后者具有傳遞屬性,但不可推斷出直接相鄰的等級關系,只能推斷大致的等級層次關系,且有可能推斷錯誤。這是因為等級關系的傳遞性經過層層傳遞后,層級相差越遠,語義范圍相差也越大,甚至造成語義的失真,因此對該規則需選擇性使用。3.2.3相關關系的傳遞性相關關系的傳遞性是指相關映射關系的傳遞性,如果敘詞<A>RTM<B>,<B>RTM<C>,則根據相關關系傳遞性,推出<A>RTM<C>。相關關系是指概念在語義上具有某種關聯,是一種非精確的松散型關系。如果對相關映射關系再進行傳遞,會造成嚴重的語義失真,所以利用相關關系進行傳遞性推理時要慎重

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論