中文詞匯網(wǎng)路跨語言知識處理基礎(chǔ)架構(gòu)的設(shè)計理念與實踐_第1頁
中文詞匯網(wǎng)路跨語言知識處理基礎(chǔ)架構(gòu)的設(shè)計理念與實踐_第2頁
中文詞匯網(wǎng)路跨語言知識處理基礎(chǔ)架構(gòu)的設(shè)計理念與實踐_第3頁
中文詞匯網(wǎng)路跨語言知識處理基礎(chǔ)架構(gòu)的設(shè)計理念與實踐_第4頁
中文詞匯網(wǎng)路跨語言知識處理基礎(chǔ)架構(gòu)的設(shè)計理念與實踐_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Corpus Linguistics0961128 洪萱眉中文詞彙網(wǎng)路:跨語言知識處理基礎(chǔ)架構(gòu)的設(shè)計理念與實踐 黃居仁 謝舒凱 洪嘉馡 陳韻竹 蘇依莉 陳永祥 黃勝偉Ø 1 前言 a. 中文詞網(wǎng)小組(Chinese WordNet Group) 結(jié)合分析詳盡的中文詞彙詞義資料,與網(wǎng)路科技的技術(shù),初步開發(fā)了中文詞彙(Chinese WordNet),以利於提供中文詞彙詞義的相關(guān)訊息,也便於從事中文詞彙詞義的研究所需。 b. 在語言內(nèi)部知識的完整表達上,則是建立在完整的詞義關(guān)係系統(tǒng)上,利用類義詞(paranym) 整合對比語意關(guān)係為主的詞彙網(wǎng)路與界定語意場的不同分類系統(tǒng)(taxonomy

2、),更以完整標(biāo)記的跨語言詞義關(guān)係作為多語知識系統(tǒng)對應(yīng)的基礎(chǔ)。Ø 2. 中文詞彙意義的知識檢索研究發(fā)展2.1 詞義與義面區(qū)分的基礎(chǔ)與應(yīng)用a. 詞網(wǎng)是以詞義(sense) 與語意關(guān)係為人類語言知識表達的基本架構(gòu)。建構(gòu)完成的詞彙語意網(wǎng),一方面可作為語言學(xué)研究的素材,另一方面在資訊處理上,可作為自然語言處理以及諸多實際應(yīng)用的基石。b. 詞網(wǎng)裡有兩項重要的元素:(i) 以詞彙為依據(jù)的詞彙分組(即所謂的同義詞集(synset)。(ii) 連繫詞集的語意關(guān)係。 2.2 詞義判準原則a. 對某一詞彙在語境中傳達訊息的理解,區(qū)分出相同的彙(形)的不同涵義,即稱為意義(meaning);根據(jù)適當(dāng)?shù)臉?biāo)準,

3、判斷初步析分的合理性、進行意義的分合、細分等而得到最後的結(jié)果,稱為詞義(sense)。在某些語境下,詞可能會受語境影響而暫時改變意義,但人們是可區(qū)分出,而這樣的意義區(qū)分,稱為義面(meaning facet),是中文詞網(wǎng)中處理文獻中所謂規(guī)則化多義(regular polysemy)的重要創(chuàng)新。b. 詞義判斷標(biāo)準有五個基本原則:(1)一義一項、(2)一物一義、(3)一事一義、(4)義不隨境遷和(5) 義面由觀點與語境定義。 2.3 詞義描述規(guī)範(fàn)黃居仁等(2003)所提出之詞義區(qū)辨原則與操作原作,是中文詞義資料庫建檔與詞義區(qū)辨小詞典篇纂的依據(jù)。本詞典盡可能提供各詞目(lemma)完整而且正確的訊息

4、,包含標(biāo)音(漢音拼音和國語注音)、釋義、英文對譯、詞類、例句和附註。Ø 3.中文詞彙知識檢索系統(tǒng)設(shè)計 3.1 SSMS系統(tǒng) (Sinica Sense Management System)a. 為了讓機器讀取並儲存大量的詞彙詞義區(qū)的資料,以詞彙知識為基礎(chǔ),來整合詞彙詞義的訊息,開發(fā)了中研究詞彙詞義管理系統(tǒng)(SSMS)。(Huang et,al.,2005)b. 功能: 進行詞彙的查詢、詞義的新增、修改以及例句和WordNet同義詞集的查詢和輪入。3.2 CWN介面 在設(shè)計階段,以使用者角度和系統(tǒng)功能發(fā)展角度為考量,共同建立起系統(tǒng)架構(gòu)與操作流程,詳細描述系統(tǒng)範(fàn)圍內(nèi)相關(guān)之資料結(jié)構(gòu)以及操作

5、步驟,特別設(shè)計一套整合式即時查詢的方法(陳 等,2006),提供系統(tǒng)使用者一個整合查詢介面快速查詢及瀏覽有興趣的各個詞義資訊。主要的出發(fā)點是對詞彙與語義相關(guān)的內(nèi)容,做廣泛與有效的檢索,同時也藉著檢索的比對,來確保釋義語言及語義區(qū)分的一致性及強健性。此外,從2006年開始,中文詞網(wǎng)詞義區(qū)分資料庫的成果網(wǎng)路化,以方便提供給使用者直接查詢。因此,目前命名為中文詞彙網(wǎng)路(Chinese WordNet)。3.3 Sense Tagging系統(tǒng) 為了證實已分析的詞義可完整地表現(xiàn)在實際語言上,詞網(wǎng)小組設(shè)計出一個超過十一萬詞的大規(guī)模中文詞義全文標(biāo)示語料系統(tǒng),已經(jīng)分析過的詞義為基礎(chǔ),以中研院平衡語料庫為標(biāo)示對

6、象,從中摘錄56篇完整文章,利用N-Gram與搭配資訊等語言知識,並結(jié)合機器學(xué)習(xí)技巧以及機率模式的方式作為處理自動詞義標(biāo)示的前置作業(yè)工作,最後為達高精確之效果,再將自動產(chǎn)生之標(biāo)示結(jié)果經(jīng)由人工校訂而成。 a. 由於人工標(biāo)示需要昂貴的成本,造成語料庫標(biāo)示語意工作的難產(chǎn),因此,提出一套自動詞義標(biāo)示的方法,作為標(biāo)示詞義的前置作業(yè),再經(jīng)由專門人士校訂。根據(jù)柯等(2007)的研究,自動標(biāo)示詞義的方法,採用誘導(dǎo)式方法(bootstrap)逐步方寬標(biāo)示條件,來擴增標(biāo)式語料。 b. 自動標(biāo)示詞義可分為兩個階段:(i) N-gram模式:將標(biāo)示出詞義的資料加入訓(xùn)練集中,以作為第二階段的訓(xùn)練語料。而使用N-gram

7、的目的為擴大訓(xùn)練集和過濾訓(xùn)練資料集的雜訊。(ii) 搭配:使用搭配資訊來增加標(biāo)示集數(shù)量,搭配資訊是一種很強的語言關(guān)係,能決定目標(biāo)詞彙之詞義。3.4 中英雙語知識本體詞網(wǎng) (Bilingual Ontological Wordnet, 簡稱BOW)a. 為了追求語言知識架構(gòu)的豐富性,詞網(wǎng)小組採用建議上層共用知識本體(Suggested Upper Merged Ontology, 簡稱SUMO)為基礎(chǔ)來進行語言知識的對照。 c. Sinica BOW主要使用的資源有: WordNet, ECTEC(English-Chinese Translation Equivalents Database)

8、,及SUMO。 (i) ECTEC: 由WordNet為基礎(chǔ),經(jīng)由現(xiàn)有的中英或英中電子辭典的詞形對應(yīng),替每個同義詞集的詞義找出相對應(yīng)的中譯詞組,再經(jīng)由人工檢驗。 (ii) SUMO: 知識本體是以格式化的方式表達概念(concept)、關(guān)係(relation)和公理(anxioms)。上層知識本體將一般性、後設(shè)性(meta)、摘要性及哲學(xué)類的概念指出,所以特殊領(lǐng)域的概念可由其中的概念涵蓋,但特殊領(lǐng)域的知識本體由各領(lǐng)域自行制訂。Ø 4. 詞彙語意關(guān)係表達與預(yù)測 4.1 詞彙語意關(guān)係表達 a. 在CWN裡,參考了普林斯頓WordNet的語意關(guān)係連結(jié),如:同義詞、反義詞等。另外, 詞網(wǎng)小組

9、也開發(fā)了類義詞(paranymy)的語義關(guān)係連結(jié),主要以WordNet為框架,在姊妹詞彙(sister terms) 中的解釋豐富的概念關(guān)係(rich conceptual relations)。 b. 類義詞可以為兩大類: (i) 相對類義詞(contrary paranymy): 除了有比較級和最高級外,語意關(guān)係的詞彙也可以是中等程度的詞彙,例如:溫的。此外,又可被分為類成認知、感官類(perceptional paradigms)或約定俗成類(conventional paradigms)。 (ii) 重疊類義詞(Overlapping Paranymy): 兩個姊妹詞彙共同擁有一些相同

10、的特徵。根據(jù)語言約定俗成的用法來解釋與區(qū)分,通常與語言的使用與經(jīng)驗相符合。例如:箱子vs.盒子,河vs.江。 4.2 詞彙語意關(guān)係預(yù)測 詞網(wǎng)小組提出一個模形 Bootstrapping from Multilingual Wordnets。此模型是基於中文詞網(wǎng)小組一系列之相關(guān)研究所得出。主要論點為假定在詞彙語意標(biāo)記上,可借力於其他已成形的詞網(wǎng)的跨語詞義關(guān)係資源。因此,詞網(wǎng)小組提出了平行進行詞義標(biāo)記所涉及之邏輯條件,並以反向回饋驗證。Ø 5. 語言知識整合與應(yīng)用 中文詞彙網(wǎng)路的發(fā)展過程中,與歐洲語言、日語以及兩岸中文之詞彙對應(yīng)進行了語言知識整合與應(yīng)用之嘗試。5.1 跨語言知識系統(tǒng)的對比

11、與應(yīng)用 為了解決全球多語化所帶來的問題,中文詞彙網(wǎng)路小組設(shè)計跨語言的知識資訊整合平臺。設(shè)計核心主軸為產(chǎn)生的內(nèi)容可協(xié)作的(content interoperability) 標(biāo)準化製作,跨語言之分散性知識與交換機制,及其存取與檢索介面。實作方法:以知識本體驅(qū)動的方式,利用上層知識本體與全球詞彙網(wǎng)路網(wǎng)格之串接作為知識核心,以文本知識發(fā)掘與語意分析技術(shù)為輔。 5.2 兩岸詞彙對應(yīng)a. Chinese Concept Distionary (CCD)中英語的詞網(wǎng): 發(fā)展架構(gòu)以WordNet為主。依據(jù)CCD發(fā)展手冊記載,詞義的首要條件不可以破壞原本W(wǎng)ordNet之於同義詞集定義概念與其語義關(guān)係架構(gòu)。此外,CCD的研究團隊不止表現(xiàn)對中文詞彙內(nèi)涵的表達,也發(fā)展了中文詞彙語義與概念的關(guān)係性,以利於強調(diào)中文的特質(zhì)。b. CCD的研究團隊專注在整個CCD的架構(gòu),提出同一概念的同義詞集的定義,其所呈現(xiàn)的概念、定義和概念網(wǎng)的上下位語義關(guān)係,每一個同義詞集都有其基本關(guān)係,彼此之間也有語義關(guān)係的存在。c. 繁體中文系統(tǒng)的英中對譯(CWN) 與 簡體中文系統(tǒng)的英中對譯(CCD),將詞類分為四大類來進行對比:名詞、動詞、形容詞和副詞。以WordNet為主,檢測在同一個Synset 中,將CWN的對譯詞彙與CCD的對譯詞彙加以進行比對。d. 在同一個Synset中,CWN和CCD可能都會有多個相對應(yīng)的對譯詞彙。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論