




已閱讀5頁,還剩24頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多語言文本信息處理的方法和框架多語言文本信息處理的方法和框架趙軍中國科學院自動化研究所模式識別國家重點實驗室北京,摘要本文在介紹多語言文本信息處理的幾個重要任務的基礎上,歸納出多語言文本信息處理的一般描述對于多語言文本信息處理領域的語言鴻溝問題以及信息處理領域的一詞多義和一義多詞問題,本文分析了幾種主要的解決辦法,并提出我們的解決方案一一基于多語言準文本平行語料庫的隱含語義標引最后介紹了以為核心技術的多語言文本信息處理的基本框架關鍵詞多語言文本信息處理,自然語言處理,機器翻譯撇,】一,概述隨著全球信息化的不斷推廣,因特網資源不再集中在英語等少數幾種語言上,非英語因特網資源的比重不斷增加另一方面,非英語英特網用戶的比重也在不斷增加。根據預測,到年,英特網用戶總量將達到億千百萬,其中非英語用戶將占到。因特網資源的多語言性和因特網用戶的多語言性,使得多語言文本信息處理變得迫在眉睫。多語言信息文本處理可以有兩種含義某個文本信息處理系統有多種語言版本,例如一個文本檢索系統包含英文文本檢索子系統、中文文本檢索子系統和日文文本檢索子系統等,在每個子系統內,用一種語言提問,檢索出該種語言的文本某個文本處理系統具有蹬語壹處理多語言文本的能力,例如一個英漢日多語言信息檢索系統中,用戶用英文提問,系統除了反饋給用戶英文的相關文本外還可以反饋給用戶中文和日文的文本。因為用戶提問和文本可能是由不同語言表示的,語言之間的差異性給檢索過程帶來困難。這種語言之間。的差異性給跨語言信息處理帶來的困難稱為蚤直婆漁問題本文所指的多語言文本信息處理指的是第種含義,即系統處理交叉語言和混合語言的能力。包含以下兩種情形每個文本我們可以把信息檢索中的用戶提問和信息過濾中的用戶信息需求都看作是文本是以一種語言表示的,但是不同的文本可以用不同語言表示每個文本本身就是用多種語言混合表示的,例如一個文本中有英文、中文、也有日文等。在英文中,與“多語言”相關的有個詞,。按照作者的理解,信息處理是泛指,包括本文第一段介紹的兩種含義。類似地,信息處理是對雙語信息處理的泛指而信息處理特指系統的多語言之間交叉語言和混合語言處理能力,即本文第一段介紹的第種含義。類似地,信息處理是對雙語交叉語言和混合語言信息處理的特指。因此本文所指的多語言信息檢索是。多語言文本信息處理包含有兩個主要的研究領域。多語言文本的存取和顯示公布,成為多種語言文字的統一編碼年公布了標準第一版,年/標準,從而為多語言的存取和顯示的奠定了基礎。年發布了一個多語言的網頁瀏覽器。目前,/等著名的網絡搜索工具都支持和多語言文本的統一存儲和顯示多語言文本的加工和處理,包括信息檢索、文本分類、信息發現等等。例如多語言信息檢索的任務是給出任意一種語言的提問,從多種語言表示的文本集合中找到與提問相關的任意語言的文本。本文討論的多語言文本信息處理主要是針對這個研究領域,即多語言文本的加工和處理。多語言文本信息處理涉及到信息檢索、機器翻譯和自然語言理解等多個研究領域,具有重要的研究價值。目前這個領域的研究主要有雙語之間的跨語言信息檢索,代表性的研和的英語和西班牙語之間的究有美國大學的交叉語言信息檢索研究,采用的是雙語詞典結合譯詞選擇排歧的方法美國大學的將單語言信息檢索中的隱含語義標引擴展到雙語信息檢索中,形成。,試驗取得令人滿意的結果在國內,多語言文本信息檢索的研究有復旦大學吳立德和黃萱菁的英漢交叉語言信息檢索研究,微軟亞洲研究院高建峰等的英漢交叉語言信息檢索研究,以及中國科學院軟件研究所的英漢交叉語言信息檢索研究。這三項研究工作主要都是基于雙語詞典和譯詞選擇的方法雙語之間的跨語言信息過濾代表性的工作是美國將用于雙語信息過濾。在評測方面,美國國家大學標準委員會和美國國防部在年的文本檢索測試會議中首次設立了交叉語言信息檢索的評測,主要集中在西方語言之間的交叉檢索,后來也加入了中文和英文之間的交叉檢索在亞洲,年日本國立情報學研究所在其主辦的第二屆東方語言信息檢索測試會議中開始了英漢交叉語言信息檢索的測試。年,美國國防部開始設立,項目,組織多語言信息偵別、抽取和文摘方面的研究和評測,把多語言信息處理從單純的信息檢索拓展到多個領域。年,歐洲開始了歐洲語言跨語言信息處理的評測計劃。這些項目和評測都極大地促進了多語言文本信息處理領域的研究和開發。綜上所述,本文所說的多語言文本信息處理指的是多種語言之間的跨語言的信息檢索、信息過濾、文本聚類和分類、信息抽取等信息處理任務。我們將著重介紹多語言文本信息處理的一般框架、核心技術以及它在多個多語言信息處理任務中的應用。以下,第章簡要介紹幾個重要的多語言文本信息處理的任務第章介紹多語言文本信息處理的一般描述,其中的語言鴻溝問題的處理方法以及我們的方法一基于準文本平行語料庫的多語言隱含語義標引第章介紹我們在多語言文本信息處理領域所做的工作,即基于的多語言文本信息處理框架以及相關技術第章是結束語。多語言文本信息處理的任務多語言文本信息處理有多個應用領域,例如信息檢索、信息過濾、文本聚類、文本分類、話題偵別和跟蹤、信息抽取、文摘、問答系統等等,這些不同的應用之間有區別,也有著密切的聯系。以下分別對信息檢索、信息過濾、文本聚類、文本分類和話題偵別與跟蹤等幾個任務做簡要介紹。多語言文本信息檢索信息檢索雙過程是這樣的用戶希望看到關于某個話題的一些文本,用戶首先用一個提問剛對這個話題進行描述,系統從這個提問中衍生出標引條目將這些標引條目與文本庫中每個文本的標引條目文本庫中的每個文本事先已經進行了類似的標引進行匹配雙系統將匹配程度最好的文本序列返回用戶。雙系統的兩個主要技術環節是自動標引包括提問標引和文本標引。信息檢索是在維空間中的向量基礎之上進行的,將提問或者文本表示為向量的過程稱為標引相似度計算通過計算提閥標引向量和文本標引向量之間的距離,估計文本和提問之間的相似性,進而給出檢索結果。影響系統性能的難點是提問向量和文本向量中的元素一般表示為詞,詞的一詞多義問題和一義多詞問題影信息檢索的效率。與單語言文本信息檢索相比,多語言文本信息檢索的特點是用戶提問和文本是用不同語言表示的,即用一種語言表示的提問檢索到其他語言表示的文本。多語言文本信息檢索在繼承了單語言信息檢索的一詞多義和一義多詞問題外,其關鍵問題是語言鴻溝問題。多語言文本信息過濾文本信息過濾包括興趣過濾和不良信息過濾兩種情況。文本信息過濾系統自動監控文本流新聞稿、通訊社等,發現用戶感興趣的文本分發給相應用戶,或者發現不良信息阻擋在外。信息過濾和信息檢索是密切聯系的,也是有區別的。在信息需求方面信息檢索和信息過濾的用戶需求都是特定的需求。但是信息檢索的信息需求提問是隨時間動態變化的,而信息過濾的用戶需求興趣是相對穩定的在文本信息源方面信息檢索和信息過濾的信息源都是非結構化的文本。但是,信息過濾的信息源是隨時間而來的動態的文本流,而信息檢索的信息源是在某個時間段內相對穩定的靜態的文本集合。文本過濾有兩個研究方向基于內容的文本過濾和基于合作的文本過濾,或。基于合作的文本過濾指的是別人幫助你判斷哪些文本是對你有用的。最著名的基于合作的文本過濾系統就是,我們可以把它看作由合作過濾和個人過濾兩部分組成。合作過濾用人工對網上的文本進行判斷,找出感興趣的文本分別進行話題標注,并存入結構化的文本數據庫中個人過濾用戶從人工得到的結構化文本數據庫中挑選自己感興趣的文本,這個過程可以看作是個人過濾。在基于內容的文本過濾中,每個用戶的文本過濾任務都是獨立進行的,因此基于內容的文本過濾系統只能利用文本內容中的信息進行過濾。在這里,我們只討論基于內容的文本過濾,以下簡稱文本過濾。文本過濾主要涉及三個技術環節文本標引用戶建模,相關性判斷。其中用戶建模指的是構造表示用戶興趣的模型,或稱用戶興趣輪廓相關性計算指的是,當頦文本信息進來時,系統估計文本與用戶輪廓的相似度,然后把文本送給對其感興趣的用戶。在向量空間模型中,用一個向量表示一篇文本,用一個向量包描述用戶輪廓通用的相關性計算的方法是用向量間夾角的余弦來衡量用戶模型和文本向量之間的相似度。與信息檢索類似,影響文本過濾系統性能的難點是用戶輪廓和文本向量中的元素一般表示為詞,詞的一詞多義和一義多詞問題影響信息過濾的效率。與單語言文本過濾相比,多語言文本過濾的特點是用戶輪廓和文本是用不同語言表示的,即用一種語言表示的輪廓過濾其他語言表示的文本。因此語言鴻溝問題成了多語言文本過濾的特有難點。多語言文本聚類和分類文本聚類的任務是按照某種相似性度量,把文本集合中的文本劃分成若干個子集,每個子集代表一個類別。類別集合事先是不知道的。文本聚類的兩個主要技術環節是文本自動標引文本向量的聚類算法,包括單層聚類算法和層級聚類算法。文本分類的任務是按照某種相似性度量,給每個文本指派一個類別。類別體系事先已經確定。文本聚類的兩個主要技術環節是文本自動標引文本向量的分類算法。雖然分類算法很多,例如回歸模型、最近鄰分類、貝葉斯分類、決策樹和支持向量機等,但是它們的思想是一致的,即將人工分類的文本庫作為訓練集,從中學習文本分類知識對于新的文本,利用文本分類知識進行自動分類。影響文本聚類和文本分類系統性能的難點是文本向量中的元素一般表示為詞,詞的一詞多義和一義多詞問題影響聚類和分類的效率。與單語言文本聚類和文本分類相比,多語言文本聚類和文本分類的特點是文本可以用不同語言表示的。除了單語言文本聚類和文本分類中的一詞多義和一義多詞問題外,多語言文本聚類和文本分類的特有難點是語言鴻溝問題。多語言文本的話題偵別和跟蹤,指的是從時序列數據流中例話題偵別和跟蹤如網絡信息、新聞通訊社數據、廣播或電視稿件等中自動地偵別新的重要話題、并跟蹤話題的最新動態。從年開始設立專項,對的研究現狀和關鍵技術進行評測。在項目開始階段,“話題限制為“事件”,指的是在某個時間點上發生的某個特別的事件。例如年月日火山爆發是一個事件,而“火山爆發”是一類事件。事件可以是不可預見的,例如地震、恐怖事件等,也可以是可預見的,例如政治選舉等。的數據可以有兩種類型來源于新聞通訊社或網絡的文本類型的數據從廣播或電視接收音頻數據經過自動語音識別后以文本形式存儲的腳本。這種腳本有兩個特點一是沒有標點符號、段落符號和篇章標記的,把多個稿件連接在一起二是因為是語音識別的輸出,因此可能有很多錯誤。考慮到第二個特點,的算法必須有很好的容錯性。有三個主要任務故事切分從廣播或電視接收并經過自動語音識別后以文本形式存儲的腳本是沒有標點符號的,把多個故事連接在一起。故事切分的任務就是把連在一起的,一故事劃分成單獨的故事事件偵別從數據流中識別出未知的事件,分為回顧型事件偵別。回和在線型新事件偵別顧型事件偵別對故事語料庫進行處理從而識別出其中的事件。事件是通過故事表達的,對語料庫中的故事進行自動聚類,其中每個類表示一個事件,這個類中的每個故事都談論這個事件。在線型新事件偵別在新事件發生時進行在線識別。每篇故事都按時間順序進行處理,并決定這篇故事是否討論一個新的事件。這些都要在處理下一個故事之前完成。事件跟蹤事件跟蹤指的是把新到的故事和系統已知的事件聯系起來。分以下兩個步驟目標事件的定義事件是由故事表達的,并通過與這些故事的關聯來定義,每個目標事件都由一組論述該事件故事來定義新到的故事的分類在有了目標事件定義后,對于新到的故事,通過計算它與目標事件定義中的一組故事的相似度來進行分類。與文本聚類和文本分類有密切的關系,與以上各個任務一樣,的難點也是詞的一詞多義和一義多詞問題。與單語言相比。多語言的特點是文本可以用不同語言表示的。因此語言鴻溝問題也是多語言的一個難點。多語言文本信息處理的關鍵問題和處理方法本章首先歸納出多語言文本信息處理的一般描述,然后論述解決語言鴻溝問題的主要方法,并提出自己的方法一多語言隱含語義標引。多語言文本信息處理的一般描述第章介紹了信息檢索、信息過濾、文本聚類、文本分類和話題偵別和跟蹤等幾個任務,其中信息檢索和信息過濾考慮的是用戶需求和文本之間的關系、文本聚類考慮的是文本和文本之間的關系、信息分類考慮的是類別和文本之間的關系、話題偵別和跟蹤考慮的是話題和文本之間的關系。如果我們把信息檢索和信息過濾中的用戶需求、文本分類中的類別、話題偵別和跟蹤中的話題都看作是文本,則以上任務考慮的都是文本之間的相關關系。這樣,以上任務都統一到一個框架下,如圖所示的。在這個統一的框架下,有兩個主要的技術環節,即文本的自動標引和標引向量之間的相關度計算,而這兩個環節都以語言鴻溝的解決機制為支撐。文本標引、要判斷兩個文本之間的相關性,考慮到效率問題,我們不可能直接對兩個文本進行比較,而要首先從文本中抽取一系列特征來概括該文本,構成文本的特征向量,然后通過計算特征向量之間的距離來估計文本之間的相關性。這個從文本到特征向量的過程稱為文本標引。目前普遍采用的是基于詞語頻度的特征向量標引,即基于詞語在文本中的出現頻度構造該文本的特征向量來表示文本。在這種方法中,詞語之間是獨立的,特征向量只與獨立的詞語有關,而與文本中通過詞語之間的關系表達出來的文本的深層語義信息沒有關系。但是,在對文本之間的相關性進行判斷時,專家考慮的是兩者之間的語義關系。因此,基于詞語頻度的特征向量標引不能很好地表達文本的語義信息,有其局限性。另一方面,雖然基于詞頻的向量表示不能很好地描述專家的信息處理過程,但是這種方法的簡單性、可移植性和很好的時間效率使得它成為目前普遍采用的文本表示方法。相關性判斷文本的相關性判斷有兩種類型二元判斷即文本是相關的還是不相關的。這種類型的判斷一般采用布爾模型有度量的相關性判斷即對文本的相關性給出值域是,】的判斷。一般采用向量空間模型和概率模型。專家對文本間的相關性的判斷圖多語言文本信息處理的框架多語言文本信息處理的關鍵問題語言鴻溝問題及其解決方法與單語言文本信息處理相比,多語言文本信息處理特殊之處就在于語言鴻溝問題,語言鴻溝問題和自動文本標引有關,也與相關度判斷有關。和文本標引和相關性判斷一樣,對于不同的多語言文本信息處理任務,其語言鴻溝問題的解決機制也是可以統一起來的。與單語言文本信息處理相比,多語言文本信息處理將詞的一詞多義問題、一義多詞問題和譯詞選擇問題交織在一起。一方面是增加了譯詞選擇歧義問題,另一方面,由于不同語言的互相牽制,可能從某種程度上給一詞多義問題的解決提供新的信息源。多語言文本處理的一個關鍵問題就是如何能夠巧妙地利用多語言之間相互限制等優勢,同時解決語言鴻溝以及一詞多義和一義多詞問題。在處理多語言文本信息處理的語言鴻溝問題上,目前有多種方法。例如基于機器翻譯的方法、基于人工構建多語言主題詞表方法、基于雙語詞典的方法、基于平行語料庫的方法、基于概念中間語言的方法等等。這些方法都是針對“翻譯歧義”問題進行的,有的也兼顧了詞多義和一義多詞問題。以下為敘述方便,我們將針對多語言文本信息檢索為例,說明一些主要方法。這些方法可以很容易地映射到多語言文本信息處理的統一框架上,從而應用到多語言文本信息處理的各個任務中。基于機器翻譯的方法基于雙語詞典的方法基于詞典的方法是中一心思想是基于雙語詞典對提闖中的每個詞給出其所有的譯詞候選,生成目標語言的提問,然后進行目標語言的單語言信息檢索。這種方法與“基于機器翻譯的方法”的區別在于機器翻譯方法要進行譯詞選擇的排歧,而“基于雙語詞典的方法”不進行排歧,保留所有歧義到檢索階段。檢索過程根據檢索文本中的詞語連續出現情況自動過濾掉譯詞選擇的歧義問題。這種方法最大的特點是簡單,雙語詞典容易得到,因此是目前最普遍最實用的方法。然而,將基于雙語詞典方法用于,檢索效率不高。例如,基于這種方法的英語和西班牙語跨語言信息檢索的查準率比單語言信息檢索降低基于這種方法的英語和漢語跨語言信息檢索的查準率比單語言信息檢索降低以上。其主要原因除了詞典的覆蓋率不高外,最關鍵的問題是非組合短語問題有些短語,如果拆開逐詞翻譯,不可能得到正確的譯文,其原因是雙語詞典中每個詞的候選譯詞無論怎么組合也不可能得到正確的短語翻譯。例如“上下班高峰時間”。特別地,在很多情況下,一個概念是以短語的形式表示的,如果把組成該短語的詞拆開后,每一個詞的詞義疊加起來并不等于該短語的短語義例如獵戶星云。以上兩種情況,英文中稱為非組合短語問題,與漢語的固定短語和半固定短語類似。在信息檢索中,對于非組合短語,按照基于雙語詞典的方法進行逐詞翻譯,不可能或很難得到準確的短語翻譯,進而不能進行正確的檢索結果。如果有一個規模足夠大的平行語料庫,我們可以利用對齊技術找到不同語言之間的對應短語。這種方法為非組合短語的翻譯提供了一個可行的途徑。基于平行語料庫的方法在介紹基于平行語料庫的隱含語義標引,方法之前,先介紹基于單語言語料庫的方法。基于單語言語料庫的方法在單語言信息檢索領域,傳統的方法是對用戶提問和文本進行基于詞語頻度的標引,并通過對標引詞的精確匹配確定提問和文本之間的相關性。這類方法最大的缺點是,它假設詞語之間是獨立的,互不相關的。,這顯然是不對的,因為專家的信息檢索過程實際上是對提問和文本之間的語義相關性進行判斷,而語義是通過表示概念的詞語以及表示概念聯系的詞語關系表達出來的。所以這種方法不能檢索到那些雖然沒有恰好包括用戶提問中的詞語,但實際上包含了與提問詞語同義或表達同一個概念的詞語的相關文本。模型的中心思想就是要在對詞語之間的語義關系進行自動評測的基礎上,分別標引出提問和文本的隱含語義,并在此基礎上進行提問和文本之間的語義相關生判斷,從而提高信息檢索的性能。基于單語言語料庫的的核心思想是假想有一個語義空間,用戶提問的一組詞語在語義空間中構成某個點,而相同主題的文本所使用的詞語在相同的語義空間中構成另一個點,而語料庫中的信息確定了兩個點在相同語義空間中的相鄰關系。這種思想是方法的基礎。根據詞語出現的上下文環境衡量詞語之間的相關性,并通過建立一個減維的特征空間使得具有相似上下文環境的詞語在這個特征空間中彼此相鄰。圖是對詞語表示的幾何直觀描述。傳統的向量表示是每個詞語的線性組合,這樣“筆記本電腦”與詞“便攜機”之間是正交不相關的圖左。而與之對比的,圖右所示的,詞語之間不是獨立的,在減維空間中相似的詞語映射在相鄰的位置上。例如詞“筆記本電腦”與詞“便攜機”在降維后的空間中位置比較接近。關鍵詞檢索兩個詞無關檢索相似詞關聯桀七墼冒昧譬門,罰一的一個維圖對詞語表示的幾何直觀描述示意圖基于平行語料庫的方法如所述,我們可以利用機器翻譯中的對齊技術解決非組合短語的翻譯問題。但是多語言信息檢索和機器翻譯是有區別的,它并不需要找出一個詞語在特定的上下文環境中的精確翻譯,而只是需要找出以不同語言表示的特定主題的文本。基于這個特點,我們可以使用某種方法將一組源語言詞語與一組目標語言詞語對應起來,而不關心雙語詞語之間的精確翻譯關系。從語料庫中獲取詞語之間的語義關系,并對文本做出語義標引。如果把這種方法擴展到多語言文本信息處理領域,做到多語言的語義標引,將為語言鴻溝問題解決提供了一個可行的途徑。這種方法就是基于平行語料庫的。基于平行語料庫的方法的核心思想是假想有一個語義空間,源語言文本的一組詞在語義空間中構成某個點,而相同主題的目標語言文本所使用的詞語在相同的語義空間中構成另外一個點,雙語平行語料庫確定了兩個點在相同語義空間中的相鄰關系。這種思想是基于平行語料庫的方法的基礎。基于平行語料庫的方法對多語言文本做到語義標引,不僅可以解決一詞多義和一義多詞問題,而且可以很好地解決語言鴻溝問題,是一種非常有潛力的研究方法。但是這種方法也有其與生俱來的不足,它依賴于大規模的平行語料庫,而大規模非受限領域的平行語料庫是很難獲得的。我們的方法一基于準文本平行語料庫的多語言隱含語義標引綜上所述,作者認為,解決多語言文本信息處理領域的語言鴻溝問題的兩種有前途的方法是基于雙語詞典的方法和基于平行語料庫的方法。前者的優點是簡單,只需要雙語詞典,不需要其他昂貴的資源。其不足是這種方法是基于關鍵詞的標引,在描述文本的語義方面有與生俱來的缺陷不能處理非組合短語的翻譯問題因為它只是給出譯詞候選而不進行排歧,而檢索階段的文本過濾并不能過濾掉所有的歧義。這三點不足限制了基于雙語詞典的多語言文本信息處理系統的性能。而基于平行語料庫的方法對多語言文本做到語義標引,不僅可以解決一詞多義和一義多詞問題,而且可以很好地解決語言鴻溝問題,是一種非常有潛力的研究方法。但是這種方法也有其與生俱來的不足,它依賴于大規模的平行語料庫,而大規模非受限領域的平行語料庫的很難獲得的。將兩種方法有機地結合起來是一個非常有潛力的研究方向。基于這樣的思想,我們提出了基于準文本平行語料庫的多語言隱含語義標引的多語言文本信息處理核心機制。其基本思想是首先利用雙語詞典,結合基于目標語言詞語統計信息的譯詞選擇技術以及基于一定規模的雙語平行語料的多語言短語對應的獲取技術,自動地建造大規模的多語言準文本平行語料庫然后在多語言準平行語料庫基礎上通過技術獲取多語言詞語之間的語義關系,從而對多語言文本做出語義標引。我們這里稱準文本平行語料庫,指的是經過譯詞選擇的目標語言文本不是一般意義上的文本,它只是詞語的堆積,不是由真正的句子構成。幸運的是,面向于信息檢索等任務的技術并不需要嚴格的平行語料,準平行語料也可以為它提供充足的多語言詞語關聯知識。基于的多語言文本信息處理框架多語言文本信息處理是中國科學院自動化研究所模式識別國家重點實驗室的重要研究方向之一。目前的主要研究內容是多語言文本信息處理的核心技術基于準文本平行語料庫的多語言隱含語義標引及其在多語言文本過濾、多語言話題偵別和跟蹤領域的應用。目標是通過信息檢索技術、自然語言處理技術、機器翻譯技術的有機融合,帶動多語言信息處理技術的提升。我們的多語言文本信息處理的框架如圖所示。圖多語言文本信息處理的框架其中是多語言文本信息處理框架的核心技術。譯詞選擇技術多語言準文本對齊語料庫的建立、多語言多詞基本語言單元的識別技術和短語對齊技術是保證實現的外圍技術。多語言文本聚類技術、文本分類技術和文本檢索技術本身是多語言文本信息處理中的一些應用,同時又是實現多語言文本過濾、多語言話題偵別和跟蹤的支撐技術。我們希望以研究和實現為起點,以它的需求帶動譯詞選擇技術、多語言多詞基本語言單元的識別技術和短語對齊技術的研究在實現多語言信息處理框架的內核之后,帶動多語言文本聚類技術、文本分類技術和文本檢索技術、多語言文本過濾、多語言事件偵別和跟蹤等多種應用的生長。以下介紹圍繞多語言文本信息處理的框架,我們所做的一些主要的工作。多語言隱含語義標引核心技術以下分別從核心技術以及支撐它的外圍技術一譯詞選擇技術、多語言多詞基本語言單元的識別技術和短語對齊技術等方面進行介紹。、的核心技術將用于多語言信息處理有兩個難點如何提高在信息處理中的性能花費比、如何實現多語言隱含語義標引如何提高在信息處理中的性能花費比將稀疏的向量轉化為稠密的向量,如果稀疏向量只有兩個元素在信息檢索領域是很典型的,而稠密向量有個元素研究人員的實驗證明,對于信息檢索來說,維的標引效果是最好的。,則標引時間花費代價是很大的,而時間效率是信息處理的一個重要指標。因此,將用于信息處理中的關鍵問題是如何以最小的時間代價和計算代價獲得最好的標引效果如何實現多語言隱含語義標弓除了本身的問題外,的另外一個問題是語言鴻溝問題。平行語料庫可以為這個問題提供信息來源。問題是大規模的領域非受限的多語平行語料庫是不容易得到的。另一方面,信息檢索、文本分類和文本聚類等問題并不象機器翻譯一樣嚴格考慮詞語之間的句法關系和句子結構,可以只考慮詞語之間的語義聯系,因此可以不考慮詞語之間的順序問題。在這個思想下,我們在源語言文本的基礎上根據譯詞選擇技術構造目標語言的譯文嚴格的說不是譯文,只是進行了譯詞選擇的文本,這樣源語言文本和它的依次選擇文本構成“多語言準文本平行語料庫”。只要有大規模的源語言
最新文檔
- 2025年 湛江市雷州市教育系統招聘教師考試試題附答案
- 2025年中國充氣混凝土行業市場發展監測及投資前景展望報告
- 2025年中國固體顆粒物料炒鍋行業市場調查研究及發展戰略規劃報告
- 2025年中國塑鋼窗行業市場發展監測及投資戰略規劃研究報告
- 中國工業氯化銨行業調查報告
- 2025年中國鹵味休閑食品市場競爭格局及投資戰略規劃報告
- 中國橡膠線機頭行業市場發展前景及發展趨勢與投資戰略研究報告(2024-2030)
- 中國渦輪式粉碎機行業市場前景預測及投資戰略研究報告
- 中國汽車空氣彈簧行業市場全景評估及發展戰略規劃報告
- 中國精密鑄鐵件行業市場規模及未來投資方向研究報告
- 危化品運輸車輛的GPS監控與追蹤系統
- 體檢機構服務流程
- 地下礦山常見安全隱患的排查和處置
- 水工混凝土建筑物修補加固技術規程
- 招標程序和《必須招標的工程項目規定》解讀-必須招標的項目課件
- (完整版)QQ三國副職及日常物品成本計算表v1.0
- 電極的界面雙電層性質課件
- 【語文】福建省廈門市演武小學小學二年級下冊期末試題
- 竣工驗收階段的質量控制
- 2021-2022學年山東省東營市廣饒縣七年級(下)期末英語試卷(五四學制)(附答案詳解)
- 湖北十堰燃氣爆炸事故案例
評論
0/150
提交評論