第三章-自然語言的處理(共152張課件)_第1頁
第三章-自然語言的處理(共152張課件)_第2頁
第三章-自然語言的處理(共152張課件)_第3頁
第三章-自然語言的處理(共152張課件)_第4頁
第三章-自然語言的處理(共152張課件)_第5頁
已閱讀5頁,還剩147頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

3.1基本概念1第1頁,共152頁。信息的主要載體-語言語言的兩種形式-文字和聲音

文字和聲音作為語言的兩個不同形式的載體,所承載的信息占整個信息組成的90%以上。如何讓計算機實現人們希望實現的語言處理功能?

如何讓計算機真正實現海量的語言信息的自動處理和有效利用?2第2頁,共152頁。自然語言處理(NaturalLanguageProcessing,簡稱NLP)是利用計算機為工具,對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術。

——馮志偉《自然語言的計算機處理》NLP是用計算機通過可計算的方法對自然語言的各級語言單位(字、詞、語句、篇章等)進行轉換、傳輸、存儲、分析等加工處理的理論和方法。

3第3頁,共152頁。其它名稱

自然語言理解(NaturalLanguageUnderstanding)

計算語言學(ComputationalLinguistics)現代語言學的一大分支,它是用計算機理解、生成和處理自然語言,即它的研究范圍不僅涵蓋語言信息的處理,還包括語言的理解和生成。4第4頁,共152頁。研究語言的目的研究語言的目的為語言構造出足夠精細的計算模型,以便能夠寫出由計算機程序來完成的涉及自然語言的各種任務。計算模型的用途作為科學研究的目的-可以探索語言交流的本質;作為實用的目的-能夠實現有效的人機通信。終極目標能夠給出一些模型,這些模型在完成閱讀、寫作、聽、說等任務時能夠接近人的行為。5第5頁,共152頁。

不關注與所使用的特定媒介相關的問題,例如手寫輸入、鍵盤輸入或語音輸入的問題。

關注在詞語識別完成后理解和使用語言的過程。

6第6頁,共152頁。NLP的20世紀50年代起步提出機器翻譯等重要問題50年代-60年代采用模式匹配法和文法分析方法對基于理解和基于統計方法的討論60年代后期衰落70-80年代采用了面向受限域的深入理解方法80年代后期至今統計方法占據主流大規模語料可用,計算機性能大幅提高互聯網的迅速發展為NLP提供了實驗數據來源和新的應用場景7第7頁,共152頁。3.2自然語言處理技術可以為我們做什么?1、信息檢索?微軟:106,000,000條(8年前2,060,000條)微軟,亞洲研究院:1,060,000條微軟,亞洲研究院,研究方向:116,000條微軟,亞洲研究院,自然語言處理:38,900條?08年7月一萬億個網頁,每天數十億增加?獲得的信息只有1%被有效利用8第8頁,共152頁?!翱颉庇嬎?/p>

“框計算”是年8月18日,百度董事長兼首席執行官李彥宏在百度技術創新大會上所提出的全新技術概念。用戶只要在“百度框”中輸入服務需求,系統就能明確識別這種需求,并將該需求分配給最優的內容資源或應用提供商處理,最終精準高效地返回給用戶相匹配的結果。這種高度智能的互聯網需求交互模式,以及“最簡單可依賴”的信息交互實現機制與過程,稱之為“框計算”。9第9頁,共152頁。2、借助于語言信息處理的web智能10第10頁,共152頁。11第11頁,共152頁。微軟亞洲研究院——人立方12第12頁,共152頁。輸入“王菲”得到的人物關系圖第13頁,共152頁。Ex-1:Thespiritiswilling,butthefleshisweak.(心有余,而力不足。)譯:精神是愿意的,但骨肉是微弱的。(Systran,現在已經能夠正確翻譯)Ex-2:3、機器翻譯14第14頁,共152頁。在網絡上輸入“問句”,自動給出精確地答案。自動問答系統的結構三個模塊:提問處理模塊(Question-Processing);文獻處理模塊(Document-Processing);答案的提取和構造模塊(AnswerExtractionandFormulation)?!T志偉4、自動問答系統15第15頁,共152頁。如“給我找出所有有關在1986年到1990年之間曾經嘗試而最終失敗且金額超過1億美元的收買的文章?!碧幚矸椒ǎ?、對數據庫的每篇文章建立一種表示形式2、這種表示形式能用于后續的推理5、復雜的檢索任務16第16頁,共152頁。輸入:美歐貿易摩擦升級識別結果:美歐貿易摩擦生機輸入:新技術的發展日新月異識別結果:新紀錄的發展日新月異6、語音識別17第17頁,共152頁。信息過濾,信息安全文摘生成問答系統,人機交互語言教學文字輸入,文字編輯與排版語音翻譯網絡內容管理與知識發現…

18第18頁,共152頁。1.3關于“理解”的理解

他說:“她這個人真有意思(funny)”。她說:“他這個人怪有意思的(funny)”。于是人們以為他們有了意思(wish),并讓他向她意思意思(express)。他火了:“我根本沒有那個意思(thought)”!她也生氣了:“你們這么說是什么意思(intention)”?事后有人說:“真有意思(funny)”。也有人說:“真沒意思(nonsense)”?!渡顖蟆?994.11.13.第六版19第19頁,共152頁。人腦對語言的理解是一個復雜的思維過程。自然語言理解技術同多個學科有著千絲萬縷的關系。語言學:研究語言本身的結構語言心理學:研究人類生成和理解語言的過程邏輯學:計算機科學人工智能數學與統計學…

…20第20頁,共152頁。一種測試機器是不是具備人類智能的方法。圖靈測試21第21頁,共152頁。1.4自然語言理解研究的基本問題研究的層次——語法學:研究語句的組成結構,包括詞和短語

在語句中的作用等。為什么一句話可以這么說也可以那么說?22第22頁,共152頁。研究的層次——語義學:研究如何從一個語句中推導詞的意義,以及這些詞在該語句中句法結構中的作用來推導出該語句的意義。這句話說了什么?(1)今天中午我吃食堂。(2)這個人真牛。(3)這個人眼下沒些什么,那個人嘴不太好。23第23頁,共152頁。研究的層次——語用學:研究在不同上下文中的語句的應用,以及上下文對語句理解所產生的影響。為什么要說這句話?(1)火,火!(2)A:看看魚怎么樣了?

B:我剛才翻了一下。24第24頁,共152頁。自然語言理解的基本模型第25頁,共152頁。漢語的特點:漢語是大字符集(GBK字符集)的意音文字(圖形符號既代表語素,又代表音節的文字系統);漢語詞與詞之間沒有空格,沒有形態變化;漢語的同音詞較多;字形復雜;漢語的語法研究尚未規范化;漢語的語言學知識的量化與形式化工作滯后。1.5漢語的自然語言理解英語只有26個字母,中文卻有44908個漢字(《中華大辭典》)。英語有1500年《牛津英語辭典》收詞40多萬條。漢語長達六千多年《中華大辭典》收詞六十多萬條,比英語多50%。這一特性為漢字的輸入和計算機編碼造成了極大的困難。西方語言的形態對于計算機來說就是標記;漢語以字為基本單位,詞之間沒有明顯的標記,需要詞的切分,而分詞本身有一定的錯誤率,降低了后續處理的實際效果。漢語詞本身沒有性、數、格、時態變化等形態標志,給語義分析增加了困難。方塊漢字由象形文字演化而來,漢字字形的信息量較大,給計算機的內部信息壓縮和文字顯示制造了困難。漢語句子中詞序雖同可能意義迥異;虛詞并非非用不可,特別是在口語里,虛詞更少,因此虛詞只能是解決詞與詞、句與句關系問題的輔助手段;“意合”包含著許多語言環境、語言背景和語言風格知識以及缺省問題,如何全面把握有關意義的諸項要素,并把它形式化,是最大的難題。26第26頁,共152頁。1、交集型切分歧義問題乒乓球/拍賣/完/了乒乓球拍/賣/完/了/會通過對臺售武法案美/國會/通過對臺售武法案漢語自然語言理解的難點27第27頁,共152頁。2、未登錄詞(新詞)問題漢語詞典中未列入的詞包括:專有名詞:中文人名、地名、機構名稱、外國譯名、時間詞重疊詞:高高興興派生詞:一次性用品專業術語:互聯網28第28頁,共152頁。3、詞性岐義問題多詞性和多詞義是語言的一種普遍現象,漢語這種現象比西方語言嚴重得多。和

根據《現代漢語詞典》,可以有五種讀音:he2;he4;hu2;huo2;huo4

六種詞性:名詞、形容詞、連詞、動詞、介詞、量詞十六種不同的詞義29第29頁,共152頁。4、否定詞和語義上的混亂漢語上的否定詞“不”有時并不表示否定。相反,反而會更肯定。如:“可不是”比“可是”更可是。30第30頁,共152頁。5、漢語的岐義結構(短語歧義)岐義結構是句子自生固有的,必須在整個語境環境下才可能消歧,自動消歧是很難的。彩色鉛筆盒子[彩色][鉛筆盒子][彩色鉛筆][盒子]他在看病

他在給別人看病

大夫給他看病31第31頁,共152頁。6、漢語的詞義岐義打乒乓球打打毛衣7、語用岐義你真討厭!第32頁,共152頁。1.6自然語言處理技術自然語言處理的過程33第33頁,共152頁。如何描述一種語言?窮舉:給出語言中所有的句子;只適合含有有限多個句子的語言。文法:給出可以生成語言中所有句子的方法;當且僅當能夠用該方法產生的句子屬于該語言。自動機:給出識別該語言中句子的機械方法;可以檢驗輸入句子是否屬于該語言。第34頁,共152頁。按技術路線分為:基于語言學規則的語言處理技術基于統計的語言處理技術兩者結合

第35頁,共152頁。1、基于語言學規則的語言處理技術通過對語言學知識的形式化、形式化規則的算法化,以及算法實現等步驟將語言學知識轉化為計算機可以處理的形式。強調語言學家對語言現象的認識。采用非歧義的規則形式描述或解釋歧義行為或歧義特性。理性主義方法36第36頁,共152頁。語言學家:撰寫“規則庫”(包括“詞典”)計算機學家:編寫算法程序,對“規則庫”進行解釋和執行。37第37頁,共152頁。2、基于統計的語言處理技術從大規模真實語料庫中獲得各級語言單位上的統計信息,并依據較低級語言單位上的統計信息,用相關的統計推理技術計算較高級語言單位上的統計信息。注重用數學方法—概率論與數理統計。能從代表自然語言規律的大規模真實文本中發現知識,抽取語言現象或統計規律(從大量的語言數據中獲得語言的知識結構)。經驗主義方法38第38頁,共152頁。語言學家:建立“語料庫”——經科學取樣和加工的大規模電子文本庫。存放的是在語言的實際使用中真實出現過的語言材料;

以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源。計算機學家:建立統計模型

利用語料庫訓練模型參數編寫算法解決問題39第39頁,共152頁。二者區別——研究對象不同基于規則的方法主要研究人的語言知識結構,實際的語言數據只提供了這種內在知識的間接證據?;诮y計的方法研究對象就是實際的語言數據。40第40頁,共152頁。二者區別——理論基礎不同基于規則的方法是基于喬姆斯基的語言理論的。通過語言所必須遵守的一系列原則來描述語言,以此判斷一個句子是正確的還是錯誤的?;诮y計的方法基于香農的信息論。將語言事件賦予概率,作為其可信度,由此來判斷一個句子是常見的還是罕見的。41第41頁,共152頁。二者區別——范圍不同基于規則的方法通過對一些特定領域或范圍內的語言現象的研究來得到對人的語言能力的認識,而這些語言現象在實際應用中可能并不常見?;诮y計的方法偏重于對語料庫中人們實際使用的普通語言現象的統計表述。42第42頁,共152頁。二者區別——方法不同基于規則的方法:符號處理系統?;诮y計的方法偏重于對語料庫中人們實際使用的普通語言現象的統計表述。43第43頁,共152頁。1.7基于語言學規則的語言處理技術規則舉例新詞抽取的常規規則:1、If(pos(A)=‘N’AND(pos(B)=‘V’ORpos(B)=‘A’orpos(B)=‘N’ORpos(B)=‘Q’))ThenABisnew

該規則表示:如果由兩個詞構成的二元組中A為名詞,而B為動詞或形容詞或名詞或量詞,則將該二元組做標記,認為是新詞。2、If(pos(A)=‘V’ANDpos(B)=‘A’)ThenABisnew

例如:減肥,模仿秀第44頁,共152頁。分詞結果中含詞數最少等價于在有向圖中搜索最短路徑方法:最小匹配算法分段;逐段統計最短路徑(dijkstra算法:用于計算一個節點到其他所有節點的最短路徑);得到若干分詞結果:發展/中/國家發展/中國/家;統計排歧。最少分詞問題45第45頁,共152頁。46第46頁,共152頁。按處理對象的不同,可分為:1、字處理技術2、詞處理技術詞是自然語言中最小的有意義的構成單位,是最基本的研究對象。詞處理主要包括分詞、詞性標注、詞義消歧。3、語句處理技術4、篇章處理技術47第47頁,共152頁?;谝巹t的句法分析理論和方法Chomsky的形式語言理論上下文無關文法轉移生成文法擴充轉移網絡48第48頁,共152頁。1、chomsky的形式語言理論第49頁,共152頁。第50頁,共152頁。第51頁,共152頁。第52頁,共152頁。用G表示形式語法,G定義為四元組:G=(Vn,Vt,S,P)(1)Vt:終結符集合。是一個形式語言的基本符號。它們能在一個形式語法的推導規則的輸入或輸出字符串存在,而且它們不能被分解成更小的單位。一個語法的規則不能改變終結符。下面的語法有兩個規則:x→xax→ax在這種語法之中,a是一個終結符,因為沒有規則可以把a變成別的符號。不過,有兩個規則可以把x變成別的符號,所以x是非終結符。一個形式語法所推導的形式語言必須完全由終結符構成。短語結構語法53第53頁,共152頁。(2)Vn:非終結符集合,是可以被取代的符號,不能處于生成過程的終點,即在實際句子中不出現。在上下文無關文法中,每個推導規則的左邊只能有一個非終結符而不能有兩個以上的非終結符或終結符。(3)S:起始符號。一個語法中必須有一個起始符號,這個起始符號屬于非終結符的集合。(4)P:重寫規則,也叫做產生式規則集合(產生式的形式是P→a)。54第54頁,共152頁。采用短語結構語法對英語子集語法的描述G=(Vn,Vt,S,P)Vn={S,NP,VP,PP,N,V,Prep,Det};Vt={the,girl,letter,pencil,write,witha};S=s;P:S→NPVP..........該規則表示“句子”由“名詞短語動詞短語”組成NP→DetN...........該規則表示“名詞短語”由“冠詞名詞”組成VP→VPPP...........該規則表示“動詞短語”由“動詞短語介詞短語”組成55第55頁,共152頁。VP→VNP............該規則表示“動詞短語”由“動詞名詞短語”組成PP→PrepNP..........該規則表示“介詞短語”由“介詞名詞短語”組成Det→the|a...........該規則表示“冠詞”由the或a組成N→girl|letter|pencil............該規則表示“名詞”由girl或letter或pencil組成V→write............該規則表示“動詞”由write組成Prep→with.........該規則表示“介詞”由with組成56第56頁,共152頁。在對一個句子分析過程中,如果把分析句子各成分間關系的推導過程用樹形圖表示出來的話,那么這種圖稱作句法分析樹。對句子“thegirlwritestheletterwithapencil”進行分析的語法樹如下:句法分析樹語法樹中的葉子結點即為分析的句子。57第57頁,共152頁。例:已知漢語句子的分詞和詞性標注結果如下:他/PRON教/V我/PRON學/V日語/N請畫出該句子的語法樹,并給出上下文無關規則。G=(Vt,Vn,S,P)Vn={S,PRON,V,OBJECT,N}Vt={他,教,我,學,日語}S=SP:S→PRONVOBJECTOBJECT→N|SPRON→他|我V→教|學N→日語PRON—主語OBJECT—賓語58第58頁,共152頁。第59頁,共152頁。第60頁,共152頁。0型文法(type0grammar)第61頁,共152頁。上下文有關文法(CSG)如果所有產生式都有右邊部分長度大于等于左邊部分,那么G是上下文有關文法第62頁,共152頁。上下文無關文法(CFG)如果如果所有產生式的左邊部分都是單個非終極符號,那么G是上下文無關文法第63頁,共152頁。正則文法(RG)第64頁,共152頁。如果所有產生式的右邊部分都是以終極符號開始、含有至多一個非終極符號、如果有非終極符號則出現在最右邊,那么G是正則文法。第65頁,共152頁。第66頁,共152頁。請判斷以下文法的類型G1: S→CD

Ab→bA

C→aCA Ba→aB

C→bCB

Bb→bB

AD→aD

C→a

BD→bD

D→b

Aa→bDG1是上下文有關文法第67頁,共152頁。請判斷以下文法的類型G2:S→aB, A→bAA

S→bA, B→b

A→a, B→bS

A→aS, B→aBBG2是上下文無關文法第68頁,共152頁。請判斷以下文法的類型G3:S→0A A→1B

S→1B B→1B

S→0B→1

A→0A B→0

A→0SG3是正則文法第69頁,共152頁。自動機第70頁,共152頁。文法、語言和自動機第71頁,共152頁。2、上下文無關文法第72頁,共152頁。第73頁,共152頁。第74頁,共152頁。第75頁,共152頁。第76頁,共152頁。第77頁,共152頁。第78頁,共152頁。第79頁,共152頁。第80頁,共152頁。第81頁,共152頁。第82頁,共152頁。第83頁,共152頁。第84頁,共152頁。第85頁,共152頁。第86頁,共152頁。3、轉換生成文法第87頁,共152頁。第88頁,共152頁。第89頁,共152頁。第90頁,共152頁。第91頁,共152頁。4、擴充轉移網絡第92頁,共152頁。(1)有限狀態轉移網絡以冠詞“The”開頭的一類名詞短語NP的轉移網絡,它可以擁有零個或多個形容詞;最后以一個名詞結尾。組成:一組狀態(或稱結點)和一組弧組成。例子:輸入“theprettypicture”。從起始狀態NP開始,只有一條標注著“the”的外射弧。由于輸入串中的the能同它匹配,所以“the”從輸入串中刪除,過程進入圖中的狀態NP1。此時輸入串是“prettypicture”,由于第一個“pretty”的詞類是ADJ,同標注ADJ的弧匹配,于是“pretty”從輸入串中刪除,但沿著ADJ弧轉移的結果是再次回到這個NP1狀態。此時輸入串只剩下“picture”,由于它是一個名詞,因此發生了沿N弧前進到結束狀態的轉移。輸入串成為空串,分析成功。第93頁,共152頁。第94頁,共152頁。這個句子的識別還可以在網絡中走其它弧,如由狀態c輸入“swallow”也可以走弧c→d,但接下來輸入“flies”時就被拒絕識別了。由此可看出網絡識別的過程應找出各種可能的路徑,因此算法要采用并行算法或回溯算法。95第95頁,共152頁。(1)并行算法。并行算法的關鍵是在任何一個狀態都要選擇所有可以到達下一個狀態的弧,同時進行試驗。(2)回溯算法。回溯算法則是在所有可以通過的弧中選出一條往下走,并保留其他可能性,以便必要時可以回過來選擇之。這種方式需要一個堆棧結構。第96頁,共152頁。第97頁,共152頁。(2)遞歸轉移網絡(RTN)是對有限轉移網絡的一種擴展,在RTN中每條弧的標注不僅可以是一個終結符(詞或詞類),而且可以是一個用來指明另一個網絡名字的非終結符。例如,下面是一部上下文無關語法:S→NPVNPPP*NP→TADJ*NPP*PP→PNPX*表示符號X可以出現零次或多次。第98頁,共152頁。第99頁,共152頁。(3)擴充轉移網絡(ATN)第100頁,共152頁。ATN語法屬于一種增強型的上下文無關語法,即用上下文無關文法描述句子文法結構,并同時提供有效的方式將各種理解語句所需要的知識加到分析系統中,以增強分析功能,從而使得應用ATN的句法分析程序具有分析上下文有關語言的能力。ATN主要是對轉移網絡中的弧附加了過程而得到的。當通過一個弧的時候,附加在該弧上的過程就會被執行。這些過程的主要功能是(I)對文法特征進行賦值;(II)檢查數(number)或人稱(第一、二或三人稱)條件是否滿足,并據此允許或不允許轉移。第101頁,共152頁。ATN在三方面對RTN作了擴展和增強:(1)添置了一組寄存器,用來存儲分析過程中得到的中間結果和有關信息。例如,“小王研究魯迅的文章”可能先被分析為NP+VP,但發現后面的詞是“發表”,則要回到前面的某個轉移點重新分析,選擇另一條路。第102頁,共152頁。(2)每條弧上除了用句法范疇來標注以外,可以附加任意測試,只有當弧上的這種測試成功之后才能用這條弧。第103頁,共152頁。(3)每條弧上還可以附加某些動作,當通過一條弧時,相應的動作便被依次執行,這些動作主要用來設置或修改寄存器的內容。第104頁,共152頁。

例:一個簡單的名詞短語(NP)的擴充轉移網絡,

網絡中弧上的條件和操作如下所示:第105頁,共152頁。該網絡主要是用來檢查NP中的數的一致值問題。特征是Number(數),有兩個值:singular(單數)和plural(復數),缺省值是

(空)。C是弧上的條件,A是弧上的操作,*是當前詞,proper是專用名詞,det是限定詞,PP是介詞短語,*.Number是當前詞的“數”。該擴充轉移網絡有一個網絡名NP。網絡NP可以是其他網絡的一個子網絡,也可以包含其他網絡,如其中的PP就是一個子網絡,這就是網絡的遞歸性。第106頁,共152頁?;P-1將當前詞的Number放入當前NP的Number中;而弧NP-4則要求當前noun的Number與NP的Number是相同時,或者NP的Number為空時,將noun作為NP的Number,這就要求det的數和noun的數是一致的。因此thisbook,thebook,thebooks,thesebooks都可順利通過這一網絡,但是thisbooks,或thesebook就無法通過。如果當前NP是一個代詞(pron.)或者專用名詞(proper),那么網絡就從NP-5或NP-6通過,這時NP的數就是代詞或專用名詞的數。PP是一個修飾前面名詞的介詞短語,一旦到達PP弧就馬上轉入子網絡PP.第107頁,共152頁。例:一個句子的ATN,主要用來識別主、被動態的句子。S網絡中所涉及的功能名和特征維包括:功能名:Subject(主語),Direct-Obj(直接賓語),Main-Verb(謂語動詞),Auxs.(助動詞),Modifiers(修飾語)。特征維:Voice(語態):Active(主動態),Passive(被動態),缺省值是Active。Type(動詞類型):Be,Do,Have,Modal,Non-Aux,缺省值是Non-AuxaForm(動詞式):Inf不定式),Present(現在式),Past(過去式),Pres-part(現在分詞),Past-part(過去分詞),缺省值是Present。第108頁,共152頁。第109頁,共152頁。S→NPVNPPP*基于詞的N-gram模型對近鄰語言約束關系的描述能力最強,應用程度最為廣泛。第72頁,共152頁?;谡Z言學規則的語言處理技術六種詞性:名詞、形容詞、連詞、動詞、介詞、量詞文字輸入,文字編輯與排版基于規則的句法分析理論和方法他說:“她這個人真有意思(funny)”。輸入:新技術的發展日新月異英語只有26個字母,中文卻有44908個漢字(《中華大辭典》)。第40頁,共152頁。第145頁,共152頁。第92頁,共152頁。第41頁,共152頁。第21頁,共152頁。第61頁,共152頁。Subject←*即把當前成分放入名為Subject的功能寄存器(當前成分作主語)。

是一種添加操作,Auxs.

Main-Verb就是將當前的謂語動詞添加到Auxs功能寄存器中(原來Auxs中可能已有內容)。在S網絡中,當弧S-2遇到第一個動詞時,就把它置入Main-Verb,但是在接下來的弧S-3中發現Main-Verb中剛才被置入的是助動詞,網絡操作就把Main-Verb中的內容添加到Auxs寄存器的尾部。若Auxs為空,添加操作與賦值是相同的,但是當Auxs非空時(有幾個助動詞),這即是一個添加操作。另外,網絡中有一種dummy節點,這是一種空節點,用來表示一種形式上的或者預示的成分,如形式上的主語等?;-4和S-7就是對于被動態句子的分析和處理?;-4主要是識別被動態的謂語動詞,一旦確認是被動態,則將當前的主語作為直接賓語,弧S-7用來處理被動態句子中by所引導的介詞短語,該介詞的賓語就是實際上的主語。第110頁,共152頁。第111頁,共152頁。1.8基于統計的語言處理技術統計語言模型:試圖捕獲自然語言的統計規律以改善各種自然語言應用系統的性能。廣泛應用于語音識別、手寫體文字識別、機器翻譯、鍵盤輸入、信息檢索領域。統計語言建模相當于對各種語言單位如字、詞、句子或整篇文章進行概率分布的估計。112第112頁,共152頁。概率第113頁,共152頁。最大似然估計第114頁,共152頁?,F代漢語字頻統計結果:

前20個最高頻漢字及其頻率第115頁,共152頁。條件概率第116頁,共152頁。例第117頁,共152頁。全概率公式第118頁,共152頁。貝葉斯定理第119頁,共152頁。先驗概率、后驗概率第120頁,共152頁。例第121頁,共152頁。解第122頁,共152頁。定義給定所有可能的句子s,統計語言模型是一個概率分布p(s)。假設一個句子S可以表示為一個序列S=w1w2…wn,語言模型就是要求句子S的概率P(S):Wi是句中的第i個詞,hi={w1,w2,…,wn-1}稱為。p(我是一個學生)=p(我,是,一,個,學生)=p(我)?p(是|我)?p(一|我,是)?p(個|我,是,一)?p(學生|我,是,一,個)第123頁,共152頁。上述概率的計算量太大,解決問題的方法是將所有w1w2…wi-1按照某個規則映射到等價類S(w1w2…wi-1),等價類的數目遠遠小于不同的數目,即假定:第124頁,共152頁。由于語言模型的訓練文本T的規模及其分布存在著一定的局面性和片面性,許多合理的語言搭配現象沒有出現在T中。例如:一個詞串Wi-N+1…Wi

沒有出現在訓練文本T中,該詞串對應的上下文條件概率p(Wi|Wi-N+1…Wi)=0,從而導致該詞串所在的語句S的出現概率p(S)=0。第125頁,共152頁。126當前主要語言模型N-gram模型決策樹模型指數模型(最大熵模型)整句模型文法模型概率上下文無關文法鏈文法概率依存文法自適應模型第126頁,共152頁。N-gram模型實際應用中,由于嚴重的數據稀疏和系統處理能力的限制,統計語言建模只能考慮有限長度的。數據稀疏問題可能會錯誤地推導出小概率事件是不重要的。當兩個的最近的N-1個詞(或字)相同時,映射兩個到同一個等價類,在此情況下的模型稱之為N-Gram模型。N-Gram模型被稱為一階馬爾科夫鏈。N的值不能太大,否則計算仍然太大。根據最大似然估計,語言模型的參數:其中,C(w1w2…wi)表示w1w2…wi在訓練數據中出現的次數。第127頁,共152頁。通過將語言模擬成N-1階馬爾科夫源,N-gram模型減少了參數估計的維數:N的選擇要考慮參數估計的穩定性和描述能力的折衷。二元語法(Bigram)和三元語法Trigram是通常的選擇。128第128頁,共152頁。BigramTrigram129第129頁,共152頁。N的選擇:可靠性vs.辨別力“我 正在 ________”

講課?圖書館?聽課?學習?借書?……“我 正在圖書館 ________”

學習?借書?……

第130頁,共152頁??煽啃詖s.辨別力更大的n:對下一個詞出現的約束性信息更多,更大的辨別力;更小的n:在訓練語料庫中出現的次數更多,更可靠的統計結果,更高的可靠性。

第131頁,共152頁。構造方法采用語言學家構造的詞的語法分類體系,按詞性進行詞類劃分,借助于詞性標注技術,構造基于詞性的N-POS模型。采用詞的自動聚類技術,自動構造基于詞的自動聚類的類N-gram模型。132第132頁,共152頁。基于詞類的N-gram模型類模型提出的意義:降低模型參數的規模;數據稀疏問題的一種解決方式。133第133頁,共152頁。幾種模型比較基于詞的N-gram模型對近鄰語言約束關系的描述能力最強,應用程度最為廣泛。一般N小于等于3,難以描述長距離的語言約束關系。N-POS模型的參數空間最小,一般不存在數據稀疏問題,可以構造高元模型,用于描述長距離的語言約束關系。但由于詞性數目過少,過于泛化,因此限制了語言模型的描述能力。自動聚類生成的詞類數量介于詞和詞性的數量之間,由此建立的類N-gram模型,既不存在嚴重的數據稀疏問題,又不存在過于泛化的問題。134第134頁,共152頁。統計語言模型的參數基于統計的方法基本上使用了隱馬爾科夫模型,這樣的模型使用了許多參數來參與消除歧義的決策機制,這些參數必須經過適當的語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論