人工智能課件.part3_第1頁
人工智能課件.part3_第2頁
人工智能課件.part3_第3頁
人工智能課件.part3_第4頁
人工智能課件.part3_第5頁
已閱讀5頁,還剩51頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 第 3 章 機器翻譯方法 機器翻譯的處理對象是自然語言,而人類對于語言認知的過程還未研究清楚,因此,要實現理想、高質量的機器翻譯至少目前還有較大的距離。 機器翻譯是21世紀要解決的科技難題之一,主要困難是自然語言在各個層次上的歧義性 。 解決歧義問題很難從根本上突破,它將涉及到處理的難度和翻譯的速度,翻譯的復雜性,因此,尋求簡單的翻譯方法是一個重要課題,它可以降低歧義處理難度,增加解決這一科技難題的希望。1 自然語言的機器翻譯目前一般以句子為翻譯單位。句子又分為句、短語、詞三個層次。分析階段一般分為詞法分析、句法分析、語義分析、語境分析、語用分析等,其中以詞法分析和句法分析為主。 面對這么多

2、而復雜的分析模塊(機器翻譯中,每一種分析組成一個軟件模塊),面對這么龐大的軟件系統,研究者必須有清晰的思維、正確的切入點,才可能把翻譯軟件設計得好一些,再好一些。基于這樣的認識,本章將首先討論現有的機器翻譯方法,并把重點放在基于實例的機器翻譯上。23 . 1 機器翻譯的四種實現方法3 . 1 . 1 基于分析和轉換的機器翻譯方法 人作翻譯時,把一個源語言句子譯成目標語言句子,涉及到四個基本操作:目標語言單詞的檢索、調序、刪詞、增詞;機器翻譯系統的操作過程也不例外,有檢索、分析、轉換和生成的主要四個階段。這被稱為基于分析和轉換的機器翻譯系統。也被認為是模擬人類翻譯活動最恰當的機制。 基于分析和轉

3、換的機器翻譯方法就是自動實現源語言到目標語言的轉換,它采取了一系列的分析和轉換的生成層次,使一個源語言句子經過不同的中間表達形式,最終達到目標語言句子的表示。其目的是盡可能地加深對源語言的理解,生成盡可能恰當的目標語言形式。這種方法比較全面地體現了語言學知識在機器翻譯中的應用,是了解機器翻譯實現過程的非常合適的模式。3 在“機器翻譯的常規步驟”實際上已經慨略的介紹了這一方法的全過程,這里再補充闡述一些內容: 句子經過分析階段之后,進入轉換和生成階段。這兩者一般聯系得比較緊密,有時無法嚴格區分,因為轉換到目標語言也就是要生成目標語言的詞匯、短語、句子。可以把句子結構的轉換也就是源語言的句法樹轉換

4、長合適的目標語言對應形式當作轉換,而后續的許多處理都當作生成階段的處理步驟看待。4 實質上,機器翻譯方法對語言的處理就是在兩種語言之間搭一座橋,實現一種語言到另一種語言意義等價的轉換。它并非象自然語言理解那樣只是對一種語言的操作,只需作針對一種語言的分析。作為一個機器翻譯系統,它既要考慮源語言的語法和語義規律,也要考慮目標語言的這方面規律,忽略了任何一方都是不行的。也就是說,對于雙語互譯規律的發現和應用才是機器翻譯最本質的特征。所以,在詞、短語和句子這三個層次上尋找源語言的目標語言翻譯的等價物是機器翻譯中轉換與生成的任務。5 通常,機器翻譯的研究中將轉換看做整個翻譯過程中的一個階段。然而,在語

5、義結構上進行轉換卻是一種好的方式。語義結構可以是跨語言的,有能力同時應用于分析和生成。另一方面,當機器翻譯系統的翻譯語言對擴展時,還可以應用于多種不同的語言。但要注意,大規模的自然語言語義描述相當復雜,因而在機器翻譯系統中的應用往往會受到限制,難以采用這樣的語義表示作為轉換的基本結構。6 一般情況下,分析以句法為主、語義為輔,正確的句法結構轉換加正確的詞匯譯文可以從源語言向目標語言傳遞完整的正確信息。因此,以句法結構轉換附加上一定的語義信息,能夠構成轉換的基本層次。不足之處是:因為句法分析的結果是面向源語言的,而要生成合適的目標語言譯文,轉換部分常常引入許多目標語言方面的約束,使得轉換規則變得

6、復雜了。7 就標準的機器翻譯系統來說,句子和短語層次的結構轉換是機器翻譯轉換部分的研究重點。通常使用轉換規則,就可以實現源語言句法結構到目標語言句法結構的轉換。這方面一般采用產生式方式的轉換規則形式:S:S1+S2+SiT1+T2+Tj :T 上式理解為:S是SL(源語言)的某個待翻譯單位(句子、短語等等),S1Si是S中的下一級組成單位;對于S,如果滿足條件,則TL(目標語言)中有T1Tj譯文構成了相應的等價物T。8 這樣的方法有兩個特點:一是面向源語言分析,因為源語言中的一個句子已經由句法、語義分析等階段分析完畢,生成了關于源語言句子的某種中間表示,轉換以這種源語言中間表示作為輸入;二是直

7、接轉換,即對于S表示,直接給出譯文形式,一般不需要在目標語言內再作進一步轉換,T1Tj可以直接包括目標語言的詞匯,也可以是對應于S1Si的譯文組塊。9 上述方法稱為基于句法的轉換方法,因為 S1+S2+Si一般來說就是源語言的的句法結構表示;也可以稱為直接轉換方法,因為對于每個源語言的翻譯組塊,都馬上給出一個目標語言組塊與之對應。應該說,這種轉換方法符合人的直覺認識,也能夠實現。103 . 1 . 2 基于中間語言的翻譯方法 基于中間語言的翻譯方法是對源語言進行分析以后產生一種稱為中間語言的表示形式,然后直接由這種中間語言的表示形式生成目標語言。所謂中間語言就是自然語言的計算機表示形式的系統化

8、,它試圖創造出一種獨立于各種自然語言,同時又能表示各種自然語言的人工語言。11 基于中間語言的機器翻譯方法主要有兩個優點。首先,獨立的中間表示形式為多語種之間的互譯的實現提供了一種經濟有效的途徑。假設要對N種語言進行互譯,則有N(N-1)個語言對。不同方向的翻譯是不同的語言對。此時如果采用基于轉換的方法,因為把一種語言翻譯成另一種語言都需要一個不同的轉換機制(或模塊),所以N(N-1)個語言對共需要N(N-1)個獨立的轉換機制。而采用中間語言的方法,由于對每一種語言只需實現將該種語言翻譯成中間語言和把中間語言翻譯成該種語言的目標語言這樣兩個模塊,所以總共只需要2N個模塊。其次,中間語言不僅是對

9、基于中間語言的機器翻譯方法這一特定目的有意義,同時,作為一種通用的自然語言表示,也值得深入研究。12 基于中間語言的機器翻譯方法的優勢是無需一種語言到另一種語言的一一轉換,對于多語種的翻譯系統可以節約大量的轉換知識的手工獲取工作量。假如有N種語對需要相互翻譯,只要有2N個分析和生成模塊就夠了。其中一半是源語言分析模塊,輸入為原文,輸出以IL表示;另一半是目標語言生成模塊,輸入為IL表示,輸出為目標語言譯文。13 中間語言通常用語義概念表示,這些概念符號采用英語單詞符號或其它自行定義的符號來表示。大規模的IL需要大量的概念表示,需要生成對應的概念詞典。如果用語義概念來描寫一個句子,則構成復雜的語

10、義網絡。 對于多語種的機器翻譯來說,使用中間語言作為相互翻譯的中介是可取的。在理想狀態下,中間語言應該沒有或極少有歧義,結構嚴謹,詞匯單義,便于計算機處理。有了中間語言,一切源語言分析的結果和目標語言生成的開端都由它來表示。14 中間語言的最大好處在于為多語對譯系統創造了良好的環境,使多語種機器翻譯的語言轉換關系由網狀關系轉化為簡單的星狀關系,即由N2 個(量級)翻譯對簡為2N個翻譯對。這樣,大大地減少了機譯的重復度,從而極大地節約了人力物力。假設有5種語言之間需要相互對譯,如果不采用中間語言,則需要設計C252=(54/2) 2 = 20個不同的翻譯模塊(轉換模塊)。即每兩種語言間都要進行雙

11、向翻譯,有一對轉換模塊。但是如果采用中間語言,通過它所起的中介作用,則只需設計5對(10個)翻譯模塊就可以實現這五種語言之間的任意兩者之間的翻譯了。如果對譯的語言數進一步增加,這個優點更為突出。15 然而,中間語言的機器翻譯方法也常遭到懷疑。因為是否能夠構造出表示各種不同的自然語言語法、語義的中間語言至少目前還是未知數。此外,中間語言能不能把各種語言的所有特征保留下來,又能很好生成對應的各種語言也是問題。所以,構造中間語言是一個巨大、復雜的工程,還包含許多理論研究,迄今為止的探索還沒有好的答案。163 . 1 . 3 基于統計的機器翻譯方法 基于統計的機器翻譯方法,一般不要任何語言學知識,它的

12、基本原理是實現源語言詞匯到目標語言詞匯的映射。其思路受到語音識別研究的啟發,因而應用了類似的方法來實現。研究者用大規模的雙語語料庫作為基礎,對源語言和目標語言詞匯的對應關系進行統計,根據統計規律輸出譯文。這種方法沒有使用語言知識,主要特征是概率統計與隨機過程的方法成為了分析和生成過程的唯一方法。它的主要內容是雙語句對的對齊,通過詞匯同現的可能性來計算一種語言的一個詞映射到另一種語言的一個詞(或兩個、零個詞)的概率。應該說,基于統計的機器翻譯方法的出現改變了機器翻譯研究的面貌,從而開始了機器翻譯研究的新階段。不過,有些學者也對純統計方法提出了異議,認為必須引入高層語法、語義模型,顯然這是正確的。

13、否則,基于統計的機器翻譯方法不可能產生高質量。17 統計方法最先在語音識別領域取得了成功。由于當前計算機在運算速度和存儲容量方面都有巨大的提高,可以獲取大量的機讀語料庫,因此在機器翻譯中應用統計方法的條件已經成熟。 機器翻譯的噪聲通道模型可以視作最早的機器翻譯思想的某中復活,其思路可以這樣理解: 假設說話者已經用目標語想好了一句話T,但是說出的卻是源語言句子S。這樣一個過程可以看成為編碼過程。而統計的機器翻譯就是要從S回推T,可以看成解碼過程。這樣,統計的機器翻譯任務分為兩個部分:一是建模,即建立翻譯的計算方法以及從雙語語料庫中估計模型的參數;二是解碼,即尋求一種高效搜索算法取有關概率計算的最

14、大值。 18 在概率計算的前后,轉換是進行有關預處理和后處理,例如句子當中的日期、時間、數字、人名等應該用適當的類別標志加以替換,以便更好地進行計算,計算后再換回來。因為這類詞不屬于一般的詞匯,單詞本身在語料庫中的出現缺乏代表性。 建模就是設計各個模型的計算公式。因為直接計算某個句子出現的概率是比較困難的,語料庫不可能足夠大到包含所有句子,必須進行合理的、適當的簡化。這是統計方法的特點,所得到的結果是近似值,但是因為概率本身就不是精確的,所以這些近似完全可以接受。19 總之,基于統計的機器翻譯方法可以簡單的這樣看:將原始的某個句子按詞折開,然后全部單詞存儲;翻譯則是取出詞,按概率統計的方法重組

15、句子,這樣的句子就是統計方法的翻譯結果。 當然,我們還是認為應該加強統計方法與語法分析、語義分析相結合的研究。203 . 1 . 4 基于實例的機器翻譯方法 建立機器翻譯系統需要大量的知識。在基于轉換和基于中間語言的機器翻譯方法中,知識按一定規則譯成代碼,這既耗時花費也大。此外,知識獲取瓶頸阻礙了機器翻譯的快速發展,這是早期機器翻譯面臨的重大難題。 為克服這一困難,除了上節介紹的統計方法外,日本機器翻譯專家Nagao在80年代提出了一種新方法,用已經存在的翻譯實例(雙語文本)作為知識源,這種方法稱為基于類比的翻譯,后來普遍稱為基于實例的翻譯。基于實例的思想已被廣泛的采用,既用于機器翻譯的設計,

16、也用于機器翻譯不同處理階段的實現中。用不斷積累的已經譯好的文本作為機器翻譯的樣本的思想,也是具有吸引力的。21 基于實例的機器翻譯方法通過結構化的翻譯例子直接把源語言的短語和句子與目標語言的短語和句子對應起來。方法的不同使得處理步驟或多或少,但都必須實現源語言到目標語言的轉換,其映射關系或者是詞到詞,或者是短語或句子到與之相應的等價物,或者是一棵句法樹到另一棵句法樹。 基于實例的機器翻譯(EBMT)的實現過程簡單概述如下:給定源語言輸入句子S,在雙語語料庫C中匹配查找一個最相近的句子S , 則S的譯文T就被接受為S的譯文。22 翻譯的過程一般就是查找和復現相似的例子,發現和記起特定的源語言表達

17、或相似的表達在以前是如何翻譯的,把以前的翻譯實例作為主要知識源。 基于實例的機器翻譯方法的基本思想: (1)把翻譯實例存入翻譯數據庫。例如,存入漢語和英語句子對; (2)對輸入的句子,在翻譯數據庫中檢索類似的翻譯例句; (3)調整實例后生成譯文。23 基于實例的機器翻譯方法可以按如下步驟實現: (1)對雙語語料庫進行句子級對齊; (2)在語料庫的源語言一邊進行句子分塊,稱為組塊。然后檢索輸入組塊的最佳匹配侯選,稱為源語言內部匹配; (3)在源語言最佳匹配后選的組塊中檢索對應目標語言組塊,稱為雙語匹配; (4)對組塊級檢索結果進行組合,以獲得整個源語言文本的翻譯結果。 24 源語言的內部匹配就是

18、在語料庫中查找一個與待譯句子最相似的句子。對于任意給定的一個句子,很難在語料庫中找到與之完全匹配的句子,所以對輸入文本在語料庫源語言一邊的匹配查找采用了松弛匹配技術。松弛匹配就是部分匹配,不同的部分匹配被賦予不同的分值,以反映輸入串和語料庫中某些句子串的接近程度。整個輸入組塊與語料庫組塊匹配的分值由一定的公式計算出來。最后,待翻譯文本中所有被匹配的每個輸入組塊都在語料庫中檢索出若干個最相近的組塊,組塊可以是一個句子、或者是一個從句、或者是一個短語,按照匹配分數從大到小排列。25 源語言內部匹配的輸出成為輸入,即把前面從語料庫中查到的組塊、所在的句子和對應譯文等構成當前處理步驟的輸入。因為每個輸

19、入組塊可能在語料庫中匹配若干組塊,所以每個組塊有待進一步處理,即在雙語匹配處理過程中又分為若干子過程,包括通過查詞典獲取詞組譯文;建立詞匯級雙語對照表;通過評分機制求出最佳翻譯句等等。 基于實例的機器翻譯方法的輸出結果帶有相應的分數,這些分值來自不同的標準,相差可能很大。因此必須采用合適的函數(方式)對所有分數進行統一(歸一化),然后這些分值才有可比性。26 基于實例的機器翻譯方法的其它優點: (1)可以通過索引和并行處理提高處理速度; (2)可以采用最佳匹配推理; (3)可以較好地利用翻譯專家的專業知識(通過翻譯實例); (4)一個基于實例的機器翻譯系統的知識可以移植、共享。27 基于實例的

20、機器翻譯方法的基本結構: 實例庫 輸入句子 檢 索 同義詞詞典 調整 檢索到的實例 輸出28 (1)翻譯實例庫 翻譯實例庫就是翻譯句子集,是系統的主要知識源。翻譯實例句子有多種形式,如沒有處理的雙語句對,不同領域翻譯例句的組合,已經具有分析句法樹的例句對。 (2)同義詞詞典 同義詞詞典應該包括詞義的層次結構,以便計算句子間的相似度。 (3) 檢索 檢索模塊從實例庫中檢索與輸入句子最相似的例句。標準做法是:首先定義樣本和新句間相似度;然后計算每個相似例句的相似度;然后再選最優者。 (4)調整 調整模塊的任務是調整輸入新句的檢索實例,產生翻譯結果。檢索出來的例句和新句應十分相似,但并非完全相同。因

21、此需要一種調整它們不同之處的方法。293 . 1 . 5 機器翻譯方法的小結 在機器翻譯領域,機器翻譯方法可以看成是兩大類共四種方法,兩大類是:基于規則一類;基于語料庫一類。顯而易見,基于規則一類包括了基于轉換的機器翻譯方法和基于中間語言的機器翻譯方法;基于語料庫一類包括了基于統計的機器翻譯方法和基于實例的機器翻譯方法。30 基于規則的一類方法的一個基本假設就是認為翻譯過程是一個需要對源語言的分析和進行源語言意義的表示,然后再生成等價的目標語言的過程。基于規則的一類機器翻譯方法的基本特點可以概括為層次性和模塊性。層次性指機器翻譯采取由詞到句的不同層次的分析過程,建立一種中間表示,然后完成由句到

22、詞的不同層次的轉換生成過程。這樣就達到了語言學處理過程和機器翻譯系統實現的模塊化相輔助,源語言和目標語言模塊的描述分開。基于規則的一類機器翻譯方法經過多年的發展,有許多不同的實現方式,但基本思路與上述相同。 基于規則的一類方法在機器翻譯界一直占有主導地位,直到今天仍然發揮著重要作用,現在有影響的機器翻譯系統也都是基于規則的。31 基于規則的一類方法在機器翻譯的發展中確實起了非常重要的作用,但是,隨著研究的深入,研究者們發現人工確定的有限規則難以正確翻譯大規模的現實語句。因此,人們不斷地尋找新的方法,從而產生了基于語料庫的一類方法。所謂語料庫,就是把各類在現實當中使用的真實文本收集在一起,并不對

23、原來的語句進行修飾潤色,這樣構成的集合稱為語料庫。顯然,機器翻譯只有對語料庫中真實句子進行翻譯研究,才有可能建立起滿足現實要求的機器翻譯系統。早期的語料庫主要是為自然語言研究提供眾多的實例,如用于詞頻統計,以后逐漸發展為對其進行大規模的語法信息標注,如詞性標注、句法符號標注等。這樣,對語料庫進行收集、整理、加工的研究誕生了一門新的語言學分支,就稱為語料庫語言學。32 為機器翻譯服務的語料庫應該是源語言和目標語言雙語對照的雙語語料庫,或者是多種自然語言對照的語料庫。在研究中,一方面可以直接使用語料庫進行機器翻譯中的分析、轉換和生成,另一方面可以間接使用語料庫,將其作為獲取翻譯知識和統計知識的依據

24、。 十多年來,對機器翻譯的多方面研究使許多人認為,好的機器翻譯系統應采用混合方法,因為就目前情況看,無論采用何種方法實現的機器翻譯系統,都沒有混合方法質量好。333 . 2 基于實例的機器翻譯改進方法 3 . 2 . 1 完全實例的翻譯完全實例的翻譯就是對待翻譯的源語句通過翻譯實例數據庫檢索出要翻譯的目標語句,翻譯的操作就是檢索。 這種方法用已經存在的翻譯實例(雙語文本)作為知識源。 工作之初,選擇了一些常用的雙語翻譯實例輸入,構造成一個特別的模塊(翻譯實例數據庫)。34例如:在漢譯英翻譯實例數據庫中有(1)源 語 句 水的熱容量比沙大 目標語句 Water has a greater hea

25、t capacity than sand.(2)源 語 句 太陽離我們比其它任何恒星都更近一些 目標語句 The sun is closer to us than any of the other stars.(3)源 語 句 對于生物來說,沒有什么東西比太陽更重要了。 目標語句 There is nothing more important to life than the sun. 35 之后,不斷積累已經譯好的文本作為機器翻譯的樣本。當然,如果所要翻譯的語言是由有限個常用句子構成,這種處理方法的實用性會大一些;但是,每一種自然語言都是由無限多個句子構成,計算機永遠不可能完全存儲,因此這種

26、處理方法的實用性很小。 雖然我們對完全實例的翻譯并不寄于厚望,但我們的翻譯系統仍然建立了這一模塊,收集的是一些成熟的、常用的雙語翻譯實例。 這樣做的理由是, 完全實例的翻譯處理方法省略了自動分詞、詞義消歧、句法分析、語義分析、譯文轉換等許多步驟。對具體待翻譯的多個源語句來說,這種翻譯(檢索)即使部分成功,目的也達到了,因為它的譯文是高質量的,與人工翻譯一致;不成功,再采取二、三種處理方法。 當然,要這樣做,還應該采用高效的映射式檢索算法,才能保證機譯速度. 363 . 2 . 2 實例句型轉換的翻譯 完全實例的翻譯譯文是高質量的,與人工翻譯一致,但它的成功率很低,而且并不與翻譯實例數據庫的雙語

27、實例句數量成正比。 如果把完全實例擴充為句型間的轉換翻譯,將提高翻譯的成功率。 句型轉換的翻譯是把源語句的單詞和句型結構映射到譯文相對應的單詞和句型結構。 雙語對譯的核心是句型結構的表達式相同,所以我們建立了雙語句型結構表達式集合模塊。 實例句型轉換的翻譯主要有兩種:37 第一種 句型轉換順序相同的翻譯 例 如漢譯英中, (1)“他們學習英語”和“我們研究漢語”句型完全相同,句型表達式只需建立一個:rvn;對應英文的語序也完全系相同:rvn;譯文是:They study English. We research Chinese. (2)“他是一個學生”和“我是一個教師”句型完全相同,句型表達式

28、只需建立一個:rvmqn;對應英文的語序也完全系相同:rvmqn;譯文是:He is a student. I am a teacher. (3)“他有許多英語書”和“我有許多科技書”句型完全相同,句型表達式只需建立一個:rvdn(1)n(2);對應英文的語序也完全系相同:rvdn(1)n(2);譯文是:He had many English books. I had many science books. 這樣的句型翻譯,只要自動分詞正確,無語義問題,譯文的質量就可以保證. 并且,再多的相同句型也只需一個句型表達式,這無疑在完全實例的翻譯的基礎上大大進了一步.38 第二種 句型轉換順序不相同

29、的翻譯 例 如漢譯英中, (1)“我們是新中國的學生”,句型表達式為:rvan(1)pn(2);其譯文是“We are studends of New China”,調序生成譯文表達式是:rvn(2)pan(1). (2)“我們在大學學過英語”,句型表達式為:rpn(1)vn(2);其譯文是“We studied English in university”,調序生成譯文表達式是:rvn(2)pn(1). (3)“去年他們設計過一臺新機器”,句型表達式為:a(1)n(1)rvmqa(2)n(2);其譯文是“They designed a new machine last year”,調序生成譯

30、文表達式是:rvmqa(2)n(2)a(1)n(1).39 實例句型轉換的翻譯雖然在完全實例的翻譯的基礎上大大進了一步,但是自動分詞、詞義消歧、語義分析、譯文轉換等步驟不能省略。 例如,“The fish was bought by the cook”和“The fish was bought by the river”這兩句的譯文是“魚是廚師買的”和“魚是從河邊買的”,這種語義的不同只可能靠語義分析予以解決。403. 2 . 3 實例近似翻譯 在 完全實例的翻譯模塊和實例句型轉換的翻譯模塊不能完成翻譯的情況下,系統將啟動近似翻譯模塊。 實例近似翻譯的實質是句型表達式的近似檢索(匹配),即檢索

31、與輸入句子最相似的例句,定義樣本和新句間相似度;然后計算每個相似例句的相似度,再選最優者。 相似度的計算有許多計算方法,基本上可分為相似程度計算和距離程度計算兩類。計算的依據則各不相同,可以按照單詞本身是否相同來計算,可以按照單詞所具有的詞類、語義類是否相同來計算,還可以按照形態變化、語義上下位關系等來計算。41 (1)按照相似程度計算,則分值越大越好(一般在01之間); (2)按照距離程度計算,則分值越小越好,此時的分值是罰分。 相似度的計算按照距離程度計算,分值越小越好,此時的分值是罰分。系統選擇分值最小的句型表達式做句型轉換的翻譯。.423 . 3 基于實例的機器翻譯方法實踐3. 3 .

32、 1 完全實例的機器翻譯實踐 在3 . 2 . 1中已經論述過, 完全實例的翻譯就是對待翻譯的源語句通過翻譯實例數據庫檢索出要翻譯的目標語句,實踐的主要工作就是建立翻譯實例數據庫,另一項工作就是翻譯的操作檢索算法。433. 3 . 2 實例句型轉換的翻譯實踐 完全實例的翻譯譯文是高質量的,但在浩瀚語海語句中,我們能收集在翻譯實例數據庫的雙語實例句數量是有限的,甚至可以說是非常少的。 如果把完全實例擴充為句型間的轉換翻譯,那么能翻譯的句子就要多得多。 句型轉換的翻譯是把源語句的單詞和句型結構映射到譯文相對應的單詞和句型結構,對譯的核心是句型結構的表達式相同。44 下面我們介紹的是最初用于學生實驗

33、的句型轉換的翻譯的一部分:3. 3 . 2 . 1 算法與程序設計 設計的核心部分如下: (1) 詞典:用一維數組存儲,kz數組存儲漢語詞組; yy數組存儲英語單詞; dz數組存儲詞性標注, 例如, 動詞為v, 代詞為r, 名詞為n, 形容詞為a, 介詞為p, 數詞為m, 量詞q,時間詞t,方位詞f,副詞d,連詞c,語氣詞y,嘆詞e等等。 下面是一些標注例子: 計算機/ n ,左/ f ,學習/v ,得/u ,三/m ,支/q ,教師/n ,中國/n ,她們/ r ,建立/v ,著/ u ,是/v ,二/m , 千/ m , 公斤/q , 嗎/y ,指出/v ,繼承/v ,描述/v ,對/p

34、,規則/n ,有/ v ,好處/n , 從/p , 人工智能/ n , 揭示/v ,創立/v ,我們/r , 急/a ,急忙/d ,忙/a , 觀察/v ,海量/n 。 45 (2)漢語句子鍵盤輸入接收(text1.text) (3)漢語句子自動分詞算法與暫不能翻譯處理: 1: 求輸入的漢語句子字符長度, x=len(text1.text) 2: 確定漢語句子詞組最長字符數和最短字符數(例如最長3, 最短1, 這有可能是巳知的, 不用程序確定) 3: 自動分詞, mid(text1.text, b, t), 先按最長詞切分, t=3。( 初值i=1, b=1) 4: 檢索漢語詞組kz詞典, 找

35、到了轉6, 未找到轉5 5: t=t-1, t不等于0轉3, t=0轉7 6: 如果成功完成全句分詞, 轉(4)進行句法分析; 否則i=i+1, t1=i(記錄一句分了幾個詞), b=b+t(另置分詞起點), 重新繼續分詞轉3 7: 顯示此句暫時不能翻譯, 退出 46 (4) 句法分析: 1: 求出詞性標注組合, i=1 to t1 zs=zs+dz(i) next i; 例如, 漢語句子-我們是新中國的學生, 分出的單詞及對應的詞性標注為: kz(1)=我們, dz(1)=r; kz(2)=是, dz(2)=v; kz(3)=新, dz(3)=a; kz(4)=中國, dz(4)=n; kz

36、(5)=的, dz(5)=u; kz(6)=學生, dz(6)=n。此例求出的zs=rvanun 2: 據zs分析此句是否是已定義的句型(正確的句型), 是轉3, 不是轉 顯示此句暫時不能翻譯處 47 (5) 譯文語 序調整: 仍以“我們是新中國的學生”為例, 原來譯文的順序是yy(1)=We , yy(2)=are, yy(3)=New, yy(4)=Chinal, yy(5)=of , yy(6)=students。調整后的順序是: yy(1)yy(2)yy(6)yy(5)yy(3)yy(4) (6) 譯文輸出: 上例中即輸出 yy(1)yy(2)yy(6)yy(5)yy(3)yy(4)

37、48 3 . 3 . 2 . 2 進一步討論 實例句型轉換的翻譯的難點集中在單詞處理方面和語法、語義方面, 主要有: 單詞處理方面 (1) 英文單詞復數、大小寫、是動詞人稱變化,過去式、過去分詞,現在進行時,冠詞the在沒有實際詞義時的加入等。 (2) 詞典除了主詞典外, 還應有下列輔助詞典: 1 縮略詞詞典 如英文的底am; 當自動切分句子遇到帶的詞時, 通過檢索縮略詞詞典, 找出對應詞組。49 2 省略詞詞典 如英文的its; theyve等。當自動切分句子遇到帶的詞時, 通過檢索省略詞詞典時, 找出相對應詞組。 3 特殊詞典 如英語的介詞、副詞、連詞等, 用法非常靈活, 在不同語言條件下

38、, 由于其前后搭配成 份不同, 其藏漢譯文和藏漢生成的詞序都很不一樣, 極易產生歧義, 而且這類詞出現的頻率極高。對這些結構詞進行特殊處理, 對提高譯文的處理質量是十分重要的。 4 專業詞典 為使翻譯能根據不同專業有更準確的譯文, 還應建立專業詞典。 (3) 分詞的歧義 難點是歧義切分, 主要解決兩類。一類是交集型歧義切分字段,一類是多義組合型歧義切分字段。 50 語法、語義方面 (1) 語法分析 將要解決的難題很多。諸如“小孩玩游戲”是對的,但“游戲玩小孩”顯然錯誤,而程序句法分析則是對的。這只有靠語法分析的主賓關系予以解決。 (8) 語義分折這一研究正在努力,涉及的方面佷多。諸如“白天鵝游過來了”;“在日本保留和尚使用的古典樂器很多”這樣的語句只能靠語義分析解決。此外,單詞一對多也有待語義分析選擇。 此外, 為了加快處理速度,可將原文中一些無需翻譯的圖表、公式、 符號標記出來。為了降低翻譯的難度, 可以在原文的句子中加進一些符號以排除歧義或者補上一些省略了的成分, 這項工作通常由只懂原文的人根據系統的要求去做。 總之,隨著研究的深入,需要解決的難點很多;而語法、語義方面的 深入研究,還有待進一步的工作,這也是機器翻譯一個最難點。 513 . 3 . 3 實例近似翻譯實踐 在 完全實例的翻譯模塊和實例句型轉換的翻譯模塊不能完成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論