




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能導論Introductiontoartificialintelligence機械工業出版社2020第11章自然語言處理【導讀案例】機器翻譯:大數據的簡單算法與小數據的復雜算法討論:1語言的問題和可能性2什么是自然語言處理3自然語言處理的歷史4語法類型與語義分析5處理數據與處理工具6語音與自然語言處理第1節11.1語言的問題和可能性AI中研究歷史最長、研究最多、要求最高的領域之一是語音和語言處理。開發智能系統的任何嘗試,最終似乎都必須解決一個問題,即使用何種形式的標準進行交流,比起使用圖形系統或基于數據系統的交流,語言交流通常是首選。語言是人類區別其他動物的本質特性。在所有生物中,只有人類才具有語言能力,人類的多種智能都與語言有著密切的關系。人類的邏輯思維以語言為形式,人類的絕大部分知識也是以語言文字的形式記載和流傳下來的。11.1語言的問題和可能性口語是人類之間最常見、最古老的語言交流形式,使我們能夠進行同步對話——可以與一個或多個人進行交互式交流,讓我們變得更具表現力,最重要的是,也可以讓我們彼此傾聽。雖然語言有其精確性,卻很少有人會非常精確地使用語言。兩方或多方說的不是同一種語言,對語言有不同的解釋,詞語沒有被正確理解,聲音可能會模糊、聽不清或很含糊,又或者受到地方方言的影響,此時,口語就會導致誤解。11.1語言的問題和可能性文本語言可以提供記錄(無論是書、文檔、電子郵件還是其他形式),這是明顯的優勢,但是文本語言缺乏口語所能提供的自發性、流動性和交互性。試思考下列一些通信方式,思考這些方式在正常使用的情況下怎么會導致溝通不暢:電話——聲音可能聽不清楚,一個人的話可能被誤解,雙方對語言理解構成了其獨特的問題集,存在錯誤解釋、錯誤理解、錯誤回顧等許多可能性。手寫信——可能難以辨認,容易發生各種書寫錯誤:郵局可能會丟失信件:發信人和日期可以省略。11.1語言的問題和可能性打字信——速度不夠快,信件的來源及其背后的真實含義可能被誤解,可能不夠正式。電子郵件——需要上網,容易造成上下文理解錯誤和誤解了其意圖。微信消息——精確、快速,可能是同步的,但是仍然不像說話那樣流暢。記錄可以得到保存。短信——需要手機,長度有限,可能難以編寫(例如鍵盤小,在駕駛或在上課期間不能發短信等)。11.1語言的問題和可能性語言既是精確也是模糊的。在法律或科學事務中,語言可以得到精確使用;又或者它可以有意地以“藝術”的方式(例如詩歌或小說)使用。作為交流的一種形式,書面語或口語可能是含糊不清的。11.1語言的問題和可能性示例11-1“音樂會結束后,我要在酒吧見到你。”盡管很多缺失的細節使得這個約會可能不會成功,但是這句話的意圖是明確的。如果音樂廳里有多個酒吧怎么辦?音樂會可能在酒吧里,我們在音樂會后相見嗎?相見的確切時間是什么?你愿意等待多久?語句“音樂會結束后”表明了意圖,但是不明確。經過一段時間后,雙方將會做什么呢?他們還沒有遇到對方嗎?11.1語言的問題和可能性示例11-2“在第三盞燈那里右轉。”這句話的意圖是明確的,但是省略了很多細節。燈有多遠?它們可能會相隔幾個街區或者相距幾公里。當方向給出后,提供更精確的信息(如距離、地標等)將有助于駕駛指導。可以看到,語言中有許多可能的含糊之處。因此,可以想象語言理解可能會給機器帶來的問題。第2節11.2什么是自然語言處理自然語言處理(naturallanguageprocessing,NLP)是計算機科學與人工智能領域的一個重要的研究與應用方向,是一門融語言學、計算機科學、數學于一體的科學,它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。因此,這一領域的研究涉及自然語言,
與語言學的研究有密切聯系又有重要區別。自
然語言處理研制能有效地實現自然語言通信的
計算機系統,特別是其中的軟件系統。11.2什么是自然語言處理使用自然語言與計算機進行通信,這是人們長期以來所追求的。因為它既有明顯的實際意義,同時也有重要的理論意義:人們可以用自己最習慣的語言來使用計算機,而無需再花大量的時間和精力去學習不很自然和不習慣的各種計算機語言;人們也可通過它進一步了解人類的語言能力和智能的機制。實現人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成,因此,自然語言處理大體包括了這兩個部分。歷史上對自然語言理解研究得較多,而對自然語言生成研究得較少。但這種狀況已有所改變。11.2什么是自然語言處理自然語言處理無論是實現人機間自然語言通信,或實現自然語言理解和自然語言生成,都是十分困難的。從現有的理論和技術現狀看,通用的、高質量的自然語言處理系統,仍然是較長期的努力目標,但是針對一定應用,具有相當自然語言處理能力的實用系統已經出現,有些已商品化,甚至開始產業化。典型的例子有:多語種數據庫和專家系統
的自然語言接口、各種機器翻譯系統、
全文信息檢索系統、自動文摘系統等。11.2什么是自然語言處理造成自然語言處理困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。一個中文文本從形式上看是由漢字(包括標點符號等)組成的一個字符串。由字組成詞,由詞組成詞組,由詞組組成句子,進而由一些句子組成段、節、章、篇。無論在字(符)、詞、詞組、句子、段……的各種層次,還是在下一層次向上一層次轉變中,都存在著歧義和多義現象,即形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。反過來,一個相同或相近的意義同樣也可以用多個文本或多個字串來表示。11.2什么是自然語言處理一般情況下,它們中的大多數都可以根據相應的語境和場景的規定而得到解決的。也就是說,從總體上說,并不存在歧義。這也就是我們平時并不感到自然語言歧義,和能用自然語言進行正確交流的原因。我們也看到,為了消解歧義,需要大量的知識和進行推理。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式,將它們存入計算機系統中去;以及如何有效地利用它們來消除歧義,都是工作量極大且十分困難的工作。11.2什么是自然語言處理自然語言的形式(字符串)與其意義之間是一種多對多的關系,其實這也正是自然語言的魅力所在。但從計算機處理的角度看,我們必須消除歧義,要把帶有潛在歧義的自然語言輸入轉換成某種無歧義的計算機內部表示。以基于語言學的方法、基于知識的方法為主流的自然語言處理研究所存在的問題主要有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句子,上下文關系和談話環境對本句的約束和影響還缺乏系統的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。11.2什么是自然語言處理另一方面,人理解一個句子不是單憑語法,還運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機里。因此一個書面理解系統只能建立在有限的詞匯、句型和特定的主題范圍內;計算機的貯存量和運轉速度大大
提高之后,才有可能適當擴大范圍.1基礎期2符號與隨機方法3四種范式4經驗主義和有限狀態模型第3節5大融合6機器學習的興起11.3自然語言處理的歷史最早的自然語言理解方面的研究工作是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設計方案,此后,自然語言處理歷史大致分為6個時期。表11-1NLP的6個時期11.3.1基礎期(20世紀40年代和50年代)自然語言處理的歷史可追溯到以圖靈的計算算法模型為基礎的計算機科學發展之初。在奠定了初步基礎后,該領域出現了許多子領域,每個子領域都為計算機進一步的研究提供了沃土。圖靈的工作導致了其他計算模型的產生,如McCulloch-Pitts神經元,它是對人類神經元進行建模,具有多個輸入,并且只有組合輸入超過閾值時才產生輸出。之后是史蒂芬·科爾·克萊尼在有限自動機和正則表達式方面的工作,它們在計算語言學和理論計算機科學中發揮了重要作用。11.3.1基礎期(20世紀40年代和50年代)香農在有限自動機中引入了概率,使得這些模型在語言模糊表示方面變得更加強大。這些具有概率的有限自動機基于數學中的馬爾可夫模型,它們在自然語言處理的下一個重大發展中起著至關重要的作用。采納了Shannon的觀點,諾姆·喬姆斯基對形式語法的工作產生主要影響,建立了計算語言學。Chomsky使用有限自動機描述形式語法,他按照生成語言的語法定義了語言。基于形式語言理論,語言可以被視為一組字符串,并且每個字符串可以被視為由有限自動機產生的符號序列。11.3.1基礎期(20世紀40年代和50年代)在構建這個領域的過程中,Shannon與Chomsky對自然語言處理的早期工作產生了另一個重大的影響。特別是Shannon的噪聲通道模型,對語言處理中概率算法的發展至關重要。在噪聲通道模型中,假設輸入由于噪聲變得模糊不清,則必須從噪聲輸入中恢復原始詞。在概念上,Shannon對待輸入就好像輸入已經通過了一個嘈雜的通信通道。基于該模型,Shannon使用概率方法找出輸入和可能詞之間的最佳匹配。11.3.2符號與隨機方法(1957~1970)從早期思想中,自然語言處理顯然可以從兩個不同的角度考慮,即符號和隨機。Chomsky的形式語言理論體現了符號的方法。基于這種觀點,語言包含了一系列的符號,這些符號序列必須遵循其生成語法的句法規則。這種觀點將語言結構簡化為一組明確規定的規則,允許將每個句子和單詞分解成結構組分。人們發展了解析算法,將輸入分解成更小的意義單元和結構單元,帶來了幾種不同的策略,如自上而下的解析和自下而上的解析。澤里格·哈里斯發展了轉換和話語分析項目,后來的解析算法工作使用動態規劃的概念,將中間結果存儲在表中,構建最佳可能的解析。11.3.2符號與隨機方法(1957~1970)因此,符號方法強調了語言結構以及對輸入的解析,使輸入的語句轉換成結構單元。另一個主要方法是隨機方法,這種方法更關注使用概率來表示語言中的模糊性。來自數學領域的貝葉斯方法用于表示條件概率。這種方法的早期應用包括光學字符識別以及布菜索和布朗尼建立的早期文本識別系統。給定一個字典,通過將字母序列中所包含的每個字母的似然值進行相乘,我們可以計算得到字母序列的似然值。11.3.34種范式(1970~1983)這一時期由4種范式主導:(1)隨機方法。在語音識別和解碼方面,隨機方法被應用到了噪聲通道模型的早期工作,馬爾可夫模型被修改成為隱馬爾可夫模型(HMM),進一步表示模糊性和不確定性。在語音識別的發展中,AT&T的貝爾實驗室、IBM的托馬斯J.華盛頓研究中心和普林斯頓大學的國防分析研究所都發揮了關鍵作用。這一時期,隨機方法開始占據主導地位。11.3.34種范式(1970~1983)(2)符號方法做出了重要貢獻,自然語言處理是繼經典符號方法后的另一個發展方向。這個研究領域可以追溯到甚至是1956年的“人工智能”達特茅斯大會。在所建立的系統中,AI研究人員開始強調所使用的基本推理和邏輯,例如紐厄爾和西蒙的邏輯理論家系統和一般求解器系統。為了使這些系統“合理化”它們的方式,給出解決方案,系統必須通過語言來“理解”問題。因此,在這些AI系統中,自然語言處理成為一個應用,這樣就可以允許這些系統通過識別輸入問題中的文本模式回答問題。11.3.34種范式(1970~1983)(3)基于邏輯的系統。使用形式邏輯來表示語言處理中所涉及的計算。主要的貢獻包括Colmerauer及其同事在變形語法方面的工作,佩雷拉和沃倫在確定子句語法方面的工作,凱(Kay)在功能語法方面的工作,以及布魯斯南和卡普蘭在詞匯功能語法方面的工作。11.3.34種范式(1970~1983)20世紀70年代,隨著威諾格拉德的SHRDLU系統的誕生,自然語言處理迎來了它最具有生產力的時期。SHRDLU系統是一個仿真系統,在該系統中,機器人將積木塊移動到不同的位置。機器人響應來自用戶的命令,將適合的積木塊移動到彼此的頂部。例如,如果用戶要求機器人將藍色塊移動到較大的紅色塊頂上,那么機器人將成功地理解并遵循該命令。這個系統將自然語言處理推至一個新的復雜程度,指向更高級的解析使用方式。解析不是簡單地關注語法,而是在意義和話語的層面上使用,這樣才能允許系統更成功地解釋命令。11.3.34種范式(1970~1983)同樣,耶魯大學的RogerSchank及其同事在系統中建立了更多有關意義的概念知識。Schank使用諸如腳本和框架這樣的模型來組織系統可用的信息。例如,如果系統應該回答有關餐廳訂單的問題,那么應該將與餐館相關聯的一般信息提供給系統。腳本可以捕獲與己知場景相關聯的典型細節信息,系統將使用這些關聯回答關于這些場景的問題。其他系統,如LUNAR(用于回答關于月亮巖石的問題),將自然語言理解與基于邏輯的方法相結合,使用謂詞邏輯作為語義表達式。因此,這些系統結合了更多的語義知識,擴展了符號方法的能力,使其從語法規則擴展到語義理解。11.3.34種范式(1970~1983)(4)在格羅茲的工作中,最有特色的是話語建模范式,她和同事引入并集中研究話語和話語焦點的子結構上,而西德納引入了首語重復法。霍布斯等研究者也在這一領域做出了貢獻。11.3.4經驗主義和有限狀態模型(1983~1993)20世紀80年代和90年代初,隨著早期想法的再次流行,有限狀態模型等符號方法得以繼續發展。Kaplan和Kay在有限狀態語音學和詞法學方面的研究以及丘奇在有限狀態語法模型方面的研究,帶來了它們的復興。在這一時期,人們將第二個趨勢稱為“經驗主義的回歸”。這種方法受到IBM的ThomasJ.Watson研究中心工作的高度影響,這個研究中心在語音和語言處理中采用概率模型。與數據驅動方法相結合的概率模型,將研究的重點轉移到了對詞性標注、解析、附加模糊度和語義學的研究。經驗方法也帶來了模型評估的新焦點,為評估開發了量化指標。其重點是與先前所發表的研究進行性能方面的比較。11.3.5大融合(1994~1999)這一時期的變化表明,概率和數據驅動的方法在語音研究的各個方面(包括解析、詞性標注、參考解析和話語處理的算法)成了NLP研究的標準。它融合了概率,并采用從語音識別和信息檢索中借鑒來的評估方法。這一切都似乎與計算機速度和內存的快速增長相契合,計算機速度和內存的增長讓人們可以在商業中利用各種語音和語言處理子領域的發展,特別是包括帶有拼寫和語法校正的語音識別子區域。同樣重要的是,Web的興起強調了基于語言的檢索和基于語言的信息提取的可能性和需求。11.3.6機器學習的興起(2000~2008)進入20世紀,標志著一個重要的發展:語言數據聯盟(LDC)之類的組織提供了大量可用的書面和口頭材料。如PennTreebank這樣的集合注釋了具有句法和語義信息的書面材料。在開發新的語言處理系統時,這種資源的價值立刻得以顯現。通過比較系統化的解析和注釋,新系統可以得到訓練。監督機器學習成為解決諸如解析和語義分析等傳統問題的主要部分。11.3.6機器學習的興起(2000~2008)隨著計算機的速度和內存的不斷增加,可用的高性能計算系統加速了這一發展。隨著大量用戶可用更多的計算能力,語音和語言處理技術可以應用于商業領域。特別是在各種環境中,具有拼寫/語法校正工具的語音識別變得更加常用。由于信息檢索和信息提取成了Web應用的關鍵部分,因此Web是這些應用的另一個主要推動力。近年來,無人監督的統計方法開始重新得到關注。這些方法有效地應用到了對單獨、未注釋的數據進行機器翻譯。開發可靠、已注釋的語料庫的成本成了監督學習方法使用的限制因素。1語法類型2語義分析和擴展語法3IBM的機器翻譯系統第4節11.4語法類型與語義分析在自然語言處理中,我們可以在一些不同結構層次上對語言進行分析,如句法、詞法和語義等,所涉及到的一些關鍵術語簡單介紹如下:詞法——對單詞的形式和結構的研究,還研究詞與詞根以及詞的衍生形式之間的關系。句法——將單詞放在一起形成短語和句子的方式,通常關注句子結構的形成。語義學——語言中對意義進行研究的科學。解析——將句子分解成語言組成部分,并對每個部分的形式、功能和語法關系進行解釋。語法規則決定了解析方式。11.4語法類型與語義分析詞匯——與語言的詞匯、單詞或語素(原子)有關。詞匯源自詞典。語用學——在語境中運用語言的研究。省略——省略了在句法上所需的句子部分,但是,從上下文而言,句子在語義上是清晰的。11.4.1語法類型學習語法是學習語言和教授計算機語言的一種好方法。費根鮑姆等人將語言的語法定義為“指定在語言中所允許語句的格式,指出將單詞組合成形式完整的短語和子句的句法規則”。11.4.1語法類型麻省理工學院的語言學家諾姆·喬姆斯基在對語言語法進行數學式的系統研究中做出了開創性的工作,為計算語言學領域的誕生奠定了基礎。他將形式語言定義為一組由符號詞匯組成的字符串,這些字符串符合語法規則。字符串集對應于所有可能句子的集合,其數量可能無限大。符號的詞匯表對應于有限的字母或單詞詞典,他對4種語法規則的定義如下:(1)定義作為變量或非終端符號的句法類別。句法變量的例子包括<VERB>、<NOUN>、<ADJECTIVE>和<PREPOSITION>。11.4.1語法類型(2)詞匯表中的自然語言單詞被視為終端符號,并根據重寫規則連接(串聯在一起)形成句子。11.4.1語法類型(3)終端和非終端符號組成的特定字符串之間的關系,由重寫規則或產生式規則指定。在這個討論的上下文中:<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE>→the<NOUN><NOUN>→student<NOUN>→expert<VERB>→reads<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE>→<NOUN><NOUN>→student<NOUN>→expert<VERB>→reads11.4.1語法類型(4)起始符號S或<SENTENCE>與產生式不同,并根據在上述(3)中指定的產生式開始生成所有可能的句子。這個句子集合稱為由語法生成的語言。以上定義的簡單語法生成了下列的句子:Thestudentreads.Theexpertreads.11.4.1語法類型重寫規則通過替換句子中的詞語生成這些句子,應用如下:<SENTENCE>→<NOUNPHRASE><VERBPHRASE>The<NOUNPHRASE><VERBPHRASE>Thestudent<VERBPHRASE>Thestudentreads.<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE><VERBPHRASE>Thestudent<VERBPHRASE>Thestudentreads.11.4.1語法類型可見,語法是如何作為“機器”“創造”出重寫規則允許的所有可能的句子的。11.4.2語義分析和擴展語法Chomsky非常了解形式語法的局限性,提出語言必須在兩個層面上進行分析:表面結構,進行語法上的分析和解析;基礎結構(深層結構),保留句子的語義信息。關于復雜的計算機系統,通過與醫學示例的類比,Michie教授總結了表面理解和深層理解之間的區別:“一位患者的臀部有一個膿腫,通過穿刺可以除去這個膿腫。但是,如果他患的是會迅速擴散的癌癥(一個深層次的問題),那么任何次數的穿刺都不能解決這個問題。”11.4.2語義分析和擴展語法研究人員解決這個問題的方法是增加更多的知識,如關于句子的更深層結構的知識、關于句子目的的知識、關于詞語的知識,甚至詳盡地列舉句子或短語的所有可能含義的知識。在過去幾十年中,隨著計算機速度和內存的成倍增長,這種完全枚舉的可能性變得更如現實。11.4.3IBM的機器翻譯Candide系統在早些時候,機器翻譯主要是通過非統計學方法進行的。翻譯的3種主要方法是:①直接翻譯,即對源文本的逐字翻譯。②使用結構知識和句法解析的轉換法。③中間語言方法,即將源語句翻譯成一般
的意義表示,然后將這種表示翻譯成目標
語言。這些方法都不是非常成功。圖11-6機器翻譯11.4.3IBM的機器翻譯Candide系統隨著IBMCandide系統的發展,20世紀90年代初,機器翻譯開始向統計方法過渡。這個項目對隨后的機器翻譯研究形成了巨大的影響,統計方法在接下來的幾年中開始占據主導地位。在語音識別的上下文中己經開發了概率算法,IBM將此概率算法應用于機器翻譯研究。概率統計方法是過去20多年中自然語言處理的準則,NLP研究以統計作為主要方法,解決在這個領域中長期存在的問題,被稱之為“統計革命”。1統計NLP語言數據集2自然語言處理工具3自然語言處理技術難點第5節11.5處理數據與處理工具現代NLP算法是基于機器學習,特別是統計機器學習的,它不同于早期的嘗試語言處理,通常涉及大量的規則編碼。11.5.1統計NLP語言數據集統計方法需要大量數據才能訓練概率模型。出于這個目的,在語言處理應用中,使用了大量的文本和口語集。這些集由大量句子組成,人類注釋者對這些句子進行了語法和語義信息的標記。自然語言處理中的一些典型的自然語言處理數據集包括:tc-corpus-train(語料庫訓練集)、面向文本分類研究的中英文新聞分類語料、以IG卡方等特征詞選擇方法生成的多維度ARFF格式中文VSM模型、萬篇隨機抽取論文中文DBLP資源、用于非監督中文分詞算法的中文分詞詞庫、UCI評價排序數據、帶有初始化說明的情感分析數據集等。11.5.2自然語言處理工具許多不同類型的機器學習算法已應用于自然語言處理任務。這些算法的輸入是一大組從輸入數據生成的“特征”。一些最早使用的算法,如決策樹,產生硬的if-then規則類似于手寫的規則,是再普通的系統體系。然而,越來越多的研究集中于統計模型,這使得基于附加實數值的權重,每個輸入要素柔軟,概率的決策。此類模型具有能夠表達許多不同的可能的答案,而不是只有一個相對的確定性,產生更可靠的結果時,這種模型被包括作為較大系統的一個組成部分的優點。11.5.2自然語言處理工具(1)OpenNLP:是一個基于Java機器學習工具包,用于處理自然語言文本。支持大多數常用的NLP任務,例如:標識化、句子切分、部分詞性標注、名稱抽取、組塊、解析等。11.5.2自然語言處理工具(2)FudanNLP:主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習算法和數據集。本工具包及其包含數據集使用LGPL3.0許可證,其開發語言為Java,主要功能是:文本分類:新聞聚類;中文分詞:詞性標注、實體名識別、關鍵詞抽取、依存句法分析、時間短語識別;結構化學習:在線學習、層次分類、聚類、精確推理。11.5.2自然語言處理工具(3)語言技術平臺(LanguageTechnologyPlatform,LTP):是哈工大社會計算與信息檢索研究中心歷時十年開發的一整套中文語言處理系統。LTP制定了基于XML的語言處理結果表示,并在此基礎上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術),以及基于動態鏈接庫(DynamicLinkLibrary,DLL)的應用程序接口,可視化工具,并且能夠以網絡服務(WebService)的形式進行使用。11.5.3自然語言處理技術難點自然語言處理的技術難點一般有:(1)單詞的邊界界定。在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。(2)詞義的消歧。許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。(3)句法的模糊性。自然語言的文法通常是模棱兩可的,針對一個句子通常可能會剖析(Parse)出多棵剖析樹(ParseTree),而我們必須要仰賴語意及前后文的信息才能在其中選擇一棵最為適合的剖析樹。11.5.3自然語言處理技術難點(4)有瑕疵的或不規范的輸入。例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字符識別(OCR)的錯誤。(5)語言行為與計劃。句子常常并不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個好的回答應當是把鹽遞過去;在大多數上下文環境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠了我拿不到”也是可以接受的。再者,如果一門課程上一年沒開設,對于提問“這門課程去年有多少學生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。1語音處理的發展2語音理解3語音識別第6節11.6語音處理語音處理(speechsignalprocessing)是研究語音發聲過程、語音信號的統計特性、語音的自動識別、機器合成以及語音感知等各種處理技術的總稱。由于現代的進音處理技術都以數字計算為基礎,并借助微處理器、信號處理器或通用計算機加以實現,因此也稱數字語音信號處理。語音信號處理是一門多學科的綜合技術。它以生理、心理、語言以及聲學等基本實驗為基礎,以信息論、控制論、系統論的理論作指導,通過應用信號處理、統計分析、模式識別等現代技術手段,發展成為新的學科。11.6.1語音處理的發展語音信號處理的研究起源于對發音器官的模擬。1939年美國H.杜德萊展示了一個簡單的發音過程模擬系統,以后發展為聲道的數字模型。利用該模型可以對語音信號進行各種頻譜及參數的分析,進行通信編碼或數據壓縮的研究,同時也可根據分析獲得的頻譜特征或參數變化規律,合成語音信號,實現機器的語音合成。利用語音分析技術,還可以實現對語音的自動識別,發音人的自動辨識,如果與人工智能技術結合,還可以實現各種語句的自動識別以至語言的自動理解,從而實現人機語音交互應答系統,真正賦予計算機以聽覺的功能。11.6.1語音處理的發展語言信息主要包含在語音信號的參數之中,因此準確而迅速地提取語言信號的參數是進行語音信號處理的關鍵。常用的語音信號參數有:共振峰幅度、頻率與帶寬、音調和噪音、噪音的判別等。后來又提出了線性預測系數、聲道反射系數和倒譜參數等參數。這些參數僅僅反映了發音過程中的一些平均特性,而實際語言的發音變化相當迅速,需要用非平穩隨機過程來描述,因此,20世紀80年代之后,研究語音信號非平穩參數分析方法迅速發展,人們提出了一整套快速的算法,還有利用優化規律實現以合成信號統計分析參數的新算法,取得了很好的效果。11.6.1語音處理的發展當語音處理向實用化發展時,人們發現許多算法的抗環境干擾能力較差。因此,在噪聲環境下保持語音信號處理能力成為了一個重要課題。這促進了語音增強的研究。一些具有抗干擾性的算法相繼出現。當前,語音信號處理日益同智能計算技術和智能機器人的研究緊密結合,成為智能信息技術中的一個重要分支。11.6.1語音處理的發展語音信號處理在通信、國防等部門中有著廣闊的應用領域。為了改善通信中語言信號的質量而研究的各種頻響修正和補償技術,為了提髙效率而研究的數據編碼壓縮技術,以及為了改善通信條件而研究的噪聲抵消及干擾抑制技術,都與語音處理密切相關。在金融部門應用語音處理,開始利用說話人識別和語音識別實現根據用戶語音自動存款、取款的
業務。在儀器儀表和控制自動化生產中,
利用語音合成讀出測量數據和故障警告。
隨著語音處理技術的發展,可以預期它將
在更多部門得到應用。11.6.2語音理解人們通常更方便說話而不是打字,因此語音識別軟件非常受歡迎。口述命令比用鼠標或觸摸板點擊按鈕更快。要在Windows中打開如“記事本”這樣的程序,需要單擊開始、程序、附件,最后點擊記事本,最輕松也需要點擊四到五次。語音識別軟件允許用戶簡單地說“打開記事本”,就可以打開程序,節省了時間,有時也改善了心情。語音理解(speechunderstanding)是指利用知識表達和組織等人工智能技術進行語句自動識別和語意理解。同語音識別的主要不同點是對語法和語義知識的充分利用程度。11.6.2語音理解語音理解起源于美國,1971年,美國遠景研究計劃局(ARPA)資助了一個龐大的研究項目,該項目要達到的目標叫做語音理解系統。由于人對語音有廣泛的知識,可以對要說的話有一定的預見性,所以人對語音具有感知和分析能力。依靠人對語言和談論的內容所具有的廣泛知識,利用知識提高計算機理解語言的能力,就是語音理解研究的核心。11.6.2語音理解利用理解能力,可以使系統提高性能:①能排除噪聲和嘈雜聲;②能理解上下文的意思并能用它來糾正錯誤,澄清不確定的語義;③能夠處理不合語法或不完整的語句。因此,研究語音理解的目的,可以說是與其研究系統仔細地去識別每一個單詞,倒不如去研究系統能抓住說話的要旨更為有效。11.6.2語音理解一個語音理解系統除了包括原語音識別所要求的部分之外,還須添入知識處理部分。知識處理包括知識的自動收集、知識庫的形成,知識的推理與檢驗等。當然還希望能有自動地作知識修正的能力。因此語音理解可以認為是信號處理與知識處理結合的產物。語音知識包括音位知識、音變知識、韻律知識、詞法知識、句法知識,語義知識以及語用知識。這些知識涉及實驗語音學、漢語語法、自然語言理解、以及知識搜索等許多交叉學科。11.6.3語音識別語音識別(speechrecognition)是指利用計算機自動對語音信號的音素、音節或詞進行識別的技術總稱。語音識別是實現語音自動控制的基礎。語音識別起源于20世紀50年代的“口授打字機”夢想,科學家在掌握了元音的共振峰變遷問題和輔音的聲學特性之后,相信從語音到文字的過程是可以用機器實現的,即可以把普通的讀音轉換成書寫的文字。語音識別的理論研究已經有40多年,但是轉入實際應用卻是在數字技術、集成電路技術發展之后,現在已經取得了許多實用的成果。11.6.3語音識別語音識別一般要經過以下幾個步驟:(1)語音預處理,,包括對語音的幅度標稱化、頻響校正、分幀、加窗和始末端點檢測等內容。(2)語音聲學參數分析,包括對語音共振峰頻率、幅度等參數,以及對語音的線性預測參數、倒譜參數等的分析。(3)參數標稱化,主要是時間軸上的標稱化,常用的方法有動態時間規整(DTW),或動態規劃方法(DP)。(4)模式匹配,可以采用距離準則或概率規則,也可以采用句法分類等。(5)識別判決,通過最后的判別函數給出識別的結果。11.6.3語音識別語音識別可按不同的識別內容進行分類:有音素識別、音節識別、詞或詞組識別;也可以按詞匯量分類:有小詞匯量(50個詞以下)、中詞量(50~500個詞)、大詞量(500個詞以上)及超大詞量(幾十至幾萬個詞)。按照發音特點分類:可以分為孤立音、連接音及連續音的識別。按照對發音人的要求分類:有認人識別,即只對特定的發話人識別,和不認人識別,即不分發話人是誰都能識別。顯然,最困難的語音識別是大詞量、連續音和不識人同時滿足的語音識別。1自然語言處理的應用2信息提取和問答系統第7節11.7自然語言處理的應用如今,幾乎每個人都擁有一臺帶有Apple或安卓操作系統的智能手機。這些設備具有語音識別功能,使用戶能夠說出自己的短信而無須輸入字母。導航設備也增加了語音識別功能,用戶無須打字,只需說出目的地址或“家”,就可以導航回家。如果有人由于拼寫困難或存
在視力問題,無法在小窗口中使用小鍵
盤,那么語音識別功能是非常有幫助的。11.7.1自然語言系統和語音識別系統例如,有兩個技術領先的商業語音識別系統:Nuance的DragonNaturallySpeakingHomeEditionTM軟件,它通過為用戶提供導航、解釋和網站瀏覽的功能,理解聽寫命令并執行定制命令;Microsoft的WindowsSpeechRecognitionTM軟件,它可以理解口頭命令,也可以用作導航工具,它讓用戶能夠選擇鏈接和按鈕,并從編號列表中進行選擇。11.7.1自然語言系統和語音識別系統1.用戶配置文件的創建和語音培訓由于系統要學習用戶的聲音,并根據用戶的口音進行調整,因此建立用戶配置文件的過程非常重要。這也使得系統只能重點專注用戶的語聲,過濾掉大部分背景噪聲。Dragon自然語音系統和微軟Windows語音識別系統都允許用戶使用計算機為不同的人創建多個配置文件。11.7.1自然語言系統和語音識別系統2.DragonNaturallySpeaking(DNS)用戶配置文件DNS配置文件創建過程要求輸入姓名、年齡、區域、口音以及將要采用的語音設備類型。這個過程還會調整麥克風,并對麥克風聲音進行質量檢查,以獲得更高的準確性。訓練提示用戶閱讀屏幕上的一段文字以測試聲級、語音和口音,這樣系統就能夠通過采集用戶讀取的一段文字來識別用戶的聲音。準確性訓練通過用戶的應用程序(如Word和Outlook)來添加個性化詞匯。這個過程對已發送的電子郵件、文檔和聯系人姓名中的未知單詞進行掃描。11.7.1自然語言系統和語音識別系統3.微軟的語音識別(MSR)用戶配置文件Microsoft的Windows7專業語音識別系統需要相同步驟建立用戶配置文件,這個配置文件也是Dragon自然語音系統所要求的。它們主要包括設置麥克風和進行語音訓練。這個界面不像Dragon自然語音系統界面那樣方便,但是它給用戶提供了訪問和修改許多設置的機會。向導屏幕允許用戶在給定設置中選擇最合適的麥克風,以獲得最佳效果,并可以調整麥克風的音量。完成個人配置文件所需的最后一步是語音識別聲音訓練,這允許系統適應用戶說話的方式。11.7.1自然語言系統和語音識別系統4.Dragon自然語音系統交互式教程Dragon自然語音系統交互式教學過程可幫助用戶了解基礎知識,這樣就可以口述命令,提高效率。本教程分為幾個部分,分別介紹了口述命令、修正菜單、拼寫窗口、編輯和學習更多的基礎知識。11.7.1自然語言系統和語音識別系統5.微軟語音識別培訓培訓教程分為幾個部分。這個過程提示用戶在教程的每個部分后使用命令,并完成需要所有已學習命令的最終實驗。教程要求用戶刪除一個單詞或更正一個句子,這樣用戶更有可能記住更多的命令,并且更好地了解如何使用這些命令。11.7.2信息提取和問答系統在NLP應用系統中,通常同時采用符號方法和統計方法。NLP方法的最知名應用是信息提取(IE)和問答系統,現在這個系統通常用于搜索網絡。讓我們思考一個例子:在決定購買AIG的股票之前,你可能想要查找互聯網上的文章,這些文章將支持你的AIG股票上漲的“信念”。為此,你將不得不找到包含“AIG”“政府救助”、股票以及一些其他關鍵字的文本,這樣就可以幫助你找到有關AIG未來可能怎樣的相關信息。這正是適用信息提取系統解決的任務。信息提取系統實際上是已解決的許多技術的組合,包括有限狀態方法、概率模型和語法分塊。11.7.2信息提取和問答系統1.問答系統問答系統通過搜索文檔集合找到用戶查詢的最佳答案。通常,文檔集合可以與Web一樣大,也可以是特定公司擁有的一組相關文檔。因為文件數量可能很大,所以必須找到最相關的文件,并進行排列,將這些文件分解成最相關的段落,并搜索這些段落來找到正確的答案。11.7.2信息提取和問答系統因此,問答系統必須完成3個任務:①處理用戶的問題,將其轉化為適合輸入系統的查詢;②檢索與查詢最相關的文件和段落;③處理這些段落,找到用戶問題的最佳答案。11.7.2信息提取和問答系統在第一步中,處理用戶的問題,識別關鍵字并消除不必要的詞。最初使用關鍵字進行查詢,然后將查詢擴展為包括關鍵字的任何同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網絡游戲虛擬貨幣收益分配合作協議
- 游戲行業風險管理與保險合作協議
- 考試監督補充協議示范文本
- 影視改編網絡文學優先補充協議
- 碳中和交通體系建設與運營合作協議
- 建筑施工安全培訓與應急預案編制服務協議
- 2025商場店鋪租賃合同協議書
- 酒吧退伙協議書
- 租用林地協議書
- 女子和惡魔簽下協議書
- 中考英語1600核心詞匯
- 空調維保服務投標方案 (技術方案)
- CSTM-鋁灰用于替代鋁土礦石技術規范編制說明
- 詢價函模板范文
- 2023年江蘇省南京市中考物理試題(解析版)
- 2023-2024學年科學四年級下冊人教鄂教版2.8《蠶的一生》教學設計
- 防汛應急預案演練說辭
- 教育系統后備干部面試題目
- 河南省鄭州市2023-2024學年高一下學期6月期末數學試題(無答案)
- 14J936變形縫建筑構造
- TD/T 1012-2016 土地整治項目規劃設計規范(正式版)
評論
0/150
提交評論