基于詞典微觀數據結構和工作流的詞典計算機輔助編纂-_第1頁
基于詞典微觀數據結構和工作流的詞典計算機輔助編纂-_第2頁
基于詞典微觀數據結構和工作流的詞典計算機輔助編纂-_第3頁
基于詞典微觀數據結構和工作流的詞典計算機輔助編纂-_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于詞典微觀數據結構和工作流的詞典計算機輔助編纂*論文導讀:計算機輔助詞典編纂系統設計的基本思路是對詞典微觀數據結構加以組織構建具有內在關聯的數據表集合,然后建立操作這些表的用戶接口,使得用戶可以在專業的界面上進行詞典編纂工作。深層次的計算機輔助編纂是對上述傳統編纂過程的改革,由計算機全程控制工作流程,工作任務的轉移遞交完全在計算機上進行,同時盡可能的減少人工干預,以保證信息數據的公平公正和及時性。關鍵詞:典編纂,工作流利用計算機技術進行詞典編纂的目的可以簡單概括為 1 :降低工作量,提高工作效率,保證詞典出版的時效性。計算機輔助詞典編纂系統設計的基本思路是對詞典微觀數據結構加以組織構建具有內

2、在關聯的數據表集合,然后建立操作這些表的用戶接口,使得用戶可以在專業的界面上進行詞典編纂工作。顯然從長期詞典編纂和詞典復用的角度來看,這樣的詞典編纂專業系統提高了工作效率,降低了工作量也保證了詞典出版的時效性的,但我們也可以看到這里計算機的主要作用只是以其超越于人的記憶能力充當大型存儲倉庫而已,整個詞典編纂系統也只是將傳統的詞典編纂方式搬到計算機上而已,是一種淺層次的計算機輔助編纂。深層次的計算機輔助編纂,覆蓋詞典編纂全過程,包括語料采集、語料處理、語料查詢、詞目編制、義項例證的收集篩選和詞典出版等;深層次的計算機輔助編纂是對上述傳統編纂過程的改革,由計算機全程控制工作流程,工作任務的轉移遞交

3、完全在計算機上進行,同時盡可能的減少人工干預,以保證信息數據的公平公正和及時性。以下從詞典微觀數據結構和詞典編纂工作流兩個方面來談深層次的計算機輔助編纂。1詞典微觀數據結構1.1 詞典微觀數據結構的定義詞典編纂以大規模詞條文本信息為基礎數據,這些信息是相當分散和獨立的,如何將這些分散、孤立的各類信息變成網絡化的信息資源,將眾多“孤島式”的信息系統進行整合,實現信息的快捷流通和共享,是詞典行業信息化過程中亟待解決的問題。簡單的來說,就是如何設計詞典微觀數據結構。Chomsky認為詞庫是詞匯成分的集合,而每一詞匯成分又是特征的集合;詞庫必須明確每一詞匯成分所獨有的語音、語義和句法特征 2 。詞典微

4、觀數據結構是詞條的結構 3 ,本文中的詞典微觀數據結構就是指詞匯特征集合(并不完全等同于Chomsky的詞匯特征分類);研究詞典微觀數據結構的目的就是為了更好的保證數據的有效交換和長期保存數據。1987年秋,由人文學科計算機協會(ACH)、文學與語言學計算機處理協會(ALLC)與計算語言學協會(ACL)聯合提出了文本編碼倡議(Text Encoding Initiative,簡稱TEI) 4 。TEI的主要任務就是制定出一套用于電子文本的描述方法、標記定義、記錄結構和文本編碼方式。TEI是專門制定的針對文字處理的通用編碼標準,使用標準通用標記語言(SGML)和可擴展標記語言(XML)等通用編碼

5、規范,為學術性出版機構、數據庫管理和辦公自動化的文本處理與廣泛交流奠定了基礎。本文中的詞典微觀數據結構標準制定的基礎來自于TEI,通過對詞匯的相關特征數據信息進行分類處理,形成完整的詞典微觀數據結構標準,以滿足計算機識別和自然任閱讀的需要。1.2 詞典微觀數據結構模型如前所說詞典微觀數據結構是圍繞詞條信息而言的,詞典微觀數據結構從理論上講應該包含詞匯所有的詞條相關特征信息,在實際的計算機系統應用中應做適當的裁剪。詞條特征信息,具體地講,在詞典微觀結構中字段表現為一個末端數據項,如單一詞目(lemma)的拼寫、讀音、詞類、句法、搭配、釋義、例證、內詞條、參見、辭源、附加說明等簡單信息形式 5 。

6、通過對詞匯特征分析并加以裁剪,可以構建圖1所示的詞典微觀數據結構(以不同的詞典理論為依據可以形成不同的詞典微觀數據結構。)。圖1 詞典微觀數據結構模型示意圖詞典微觀數據結構以依賴于詞形序號的詞目(即同形詞目詞)為出發點,分為三大部分:基本信息、義項例證和擴展附加。基本信息只包括:讀音、詞綴和詞源等;義項例證信息包括詞性、義項和例證等,同一詞性可以并存多個義項,同一義項也可能并存多個例證;擴展附加信息主要有三個部分:內詞條、參見詞和附加成份。2 工作流2.工作流的定義和分類工作流(Workflow)就是工作流程的計算模型,即將工作流程中的工作如何前后組織在一起的邏輯和規則在計算機中以恰當的模型進

7、行表示并對其實施計算 67 。工作流解決的主要問題是:為實現某個業務目標,在多個參與者之間,利用計算機,按某種預定規則自動傳遞文檔、信息或者任務。工作流屬于計算機支持的協同工作(Computer Supported Cooperative Work,CSCW)的一部分。后者是普遍地研究一個群體如何在計算機的幫助下實現協同工作的。國際上對工作流的分類有各種不同的標準,按工作流的用途和技術特點分為以下四種類型:生產型、管理型、協作型和特定型 8 。生產型(Production):它是一種高端工作流系統,工作流的高級形式,用于實現企業業務關鍵流程的自動化,系統多運行于大規模,復雜,異構的環境上.系統所管理的流程與相應執行實體或組織的功能直接相關,往往需要大量組織和人員的參與,如銀行的信用和貸款管理系統等。管理型(Administrative)或結構型(Structured):由較為結構化和可預見的過程組成,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論