人工智能通識教程 第2版 課件 第11章 自然語言處理_第1頁
人工智能通識教程 第2版 課件 第11章 自然語言處理_第2頁
人工智能通識教程 第2版 課件 第11章 自然語言處理_第3頁
人工智能通識教程 第2版 課件 第11章 自然語言處理_第4頁
人工智能通識教程 第2版 課件 第11章 自然語言處理_第5頁
已閱讀5頁,還剩73頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第2版人工智能通識教程第11章周蘇教授QQ:81505050自然語言處理導讀案例:機器翻譯:大數據簡單算法與小數據復雜算法2006年,谷歌公司開始涉足機器翻譯。這被當作實現“收集全世界的數據資源,并讓人人都可享受這些資源”這個目標的一個步驟。谷歌翻譯開始利用一個更大更繁雜的數據庫,也就是全球的互聯網,而不再只利用兩種語言之間的文本翻譯。01語言的問題和可能性02什么是自然語言處理03語法類型與語義分析04處理數據與處理工具目錄/CONTENTS05語音處理自然語言處理(NaturalLanguageProcessing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。第11章自然語言處理PART01語言的問題和可能性人類大約在10萬年前學會了如何說話,大約5千年前學會了如何寫字。人類語言的復雜性和多樣性使得智人區別于其他所有物種。當然,人類還有一些其他的特有屬性:沒有任何其他物種像人類那樣穿衣服,進行藝術創作,或者每天花兩小時在社交媒體上交流。但是,圖靈提出的智能測試是基于語言的,而非藝術或服飾,也許是因為語言具有普適性,并且捕捉到了如此多的智能行為:一個演講者演講(或作家寫作)的目標是交流知識,他組織語言來表示這些知識,然后采取行動以實現這一目標。聽眾(或讀者)感知他們的語言并推斷其中的含義。11.1語言的問題和可能性這種通過語言的交流促進了文明的發展,是我們傳播文化、法律、科學和技術知識的主要方式。語言是人類區別于其他動物的本質特性。在所有生物中,只有人類才具有語言能力,人類的智能與語言密切相關。人類的邏輯思維以語言為形式,人類的絕大部分知識也是以語言文字的形式記載和流傳下來的。11.1語言的問題和可能性口語是人類之間最常見、最古老的語言交流形式,使我們能夠進行同步對話——可以與一個或多個人進行交互式交流,讓我們變得更具表現力,最重要的是,也可以讓我們彼此傾聽。雖然語言有其精確性,卻很少有人會非常精確地使用語言。兩方或多方說的不是同一種語言,對語言有不同的解釋,詞語沒有被正確理解,聲音可能聽不清或很含糊,又或者受到地方方言的影響,此時,口語就會導致誤解。11.1語言的問題和可能性試思考下列一些通信方式,思考這些方式在正常使用的情況下怎么會導致溝通不暢:電話——聲音可能聽不清楚,一個人的話可能被誤解,雙方對語言理解構成了其獨特的問題集,存在錯誤解釋、錯誤理解、錯誤回顧等許多可能性。手寫信——可能難以辨認,容易發生各種書寫錯誤;郵局可能會丟失信件:發信人和日期可以省略。11.1語言的問題和可能性打字信——速度不夠快,信件的來源及其背后的真實含義可能被誤解,可能不夠正式。電子郵件——需要上網,容易造成上下文理解錯誤和誤解其意圖。微信消息——精確、快速,可能同步但仍然不像說話那樣流暢。記錄可以得到保存。短信——需要手機,長度有限,可能難以編寫(如鍵盤小,有時不能發短信等)。11.1語言的問題和可能性語言既是精確也是模糊的。在法律或科學事務中,語言需要得到精確使用;又或者它可以有意地以“藝術”的方式(例如詩歌或小說)使用。作為交流的一種形式,書面語或口語又可能是模糊的。11.1語言的問題和可能性示例11-1“音樂會結束后,我要在酒吧見到你。”盡管很多缺失的細節使得這個約會可能不會成功,但是這句話的意圖是明確的。如果音樂廳里有多個酒吧怎么辦?音樂會可能就在酒吧里,我們音樂會后相見嗎?相見的確切時間是什么?你愿意等待多久?語句“音樂會結束后”表明了意圖,但是不明確。經過一段時間后,雙方將會做什么呢?他們遇到對方了嗎?11.1語言的問題和可能性示例11-2“在第三盞燈那里右轉。”這句話的意圖是明確的,但是省略了很多細節。燈有多遠?它們可能會相隔幾個街區或者相距幾公里。當方向給出后,提供更精確的信息(如距離、地標等)將有助于駕駛指導。11.1語言的問題和可能性可以看到,語言中有許多含糊之處,可以想象語言理解可能會給機器帶來的問題。對計算機而言,理解語音無比困難,但理解文本就簡單得多。文本語言可以提供記錄(無論是書、文檔、電子郵件還是其他形式),這是明顯的優勢,但是文本語言缺乏口語所能提供的自發性、流動性和交互性。11.1語言的問題和可能性PART02什么是自然語言處理使用自然語言與計算機進行通信,這是人們長期以來所追求的。因為它既有明顯的實際意義,同時也有重要的理論意義:人們可以用自己最習慣的語言來使用計算機,而無需再花大量的時間和精力去學習不很自然和不習慣的各種計算機語言;人們也可以通過它進一步了解人類的語言能力和智能的機制。11.2什么是自然語言處理自然語言會話是人工智能發展史上從早期開始就被關注的主題之一。開發智能系統的任何嘗試,最終似乎都必須解決一個問題,即使用何種形式的標準進行交流,比起使用圖形系統或基于數據系統的交流,語言交流通常是首選。11.2.1自然語言處理的原因計算機進行自然語言處理有以下3個主要原因。(1)與人類交流。很多情況下,人類使用語音與計算機進行交互很方便,而且在大多數情況下,使用自然語言要比使用形式語言更加方便。(2)學習。人類已經用自然語言記錄了很多知識。例如某個百科網站就有3000萬頁事實知識,例如“嬰猴是一種夜間活動的小型靈長類動物”,然而幾乎沒有任何一個這樣的知識來源是用形式邏輯寫成的。如果我們想讓計算機系統知道很多知識,它最好能理解自然語言。(3)使用人工智能工具有助于結合語言學、認知心理學和神經科學,促進對語言和語言使用的科學理解。11.2.1自然語言處理的原因實現人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成,因此,自然語言處理大體包括了這兩個部分。11.2.2自然語言處理的方法從現有的理論和技術現狀看,通用的、高質量的自然語言處理系統仍然是較長期的努力目標,但是針對一定應用,具有相當自然語言處理能力的實用系統已經出現,有些已商品化甚至產業化。典型的例子有:多語種數據庫和專家系統的自然語言接口、各種機器翻譯系統、全文信息檢索系統、自動文摘系統等。11.2.2自然語言處理的方法造成自然語言處理困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性。一個中文文本從形式上看是由漢字(包括標點符號等)組成的一個字符串。由字組成詞,由詞組成詞組,由詞組組成句子,進而由一些句子組成段、節、章、篇。無論在字(符)、詞、詞組、句子、段各種層次,還是在下一層次向上一層次轉變中,都存在著歧義和多義現象,即形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。11.2.2自然語言處理的方法反過來,一個相同或相近的意義同樣也可以用多個文本或多個字串來表示。一般情況下,它們中的大多數都可以根據相應的語境和場景的規定而得到解決的。也就是說,從總體上說,并不存在歧義。這也就是我們平時并不感到自然語言歧義,和能用自然語言進行正確交流的原因。我們也看到,為了消解歧義,需要大量的知識和進行推理。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式,將它們存入計算機系統中去;以及如何有效地利用它們來消除歧義,都是工作量極大且十分困難的工作。11.2.2自然語言處理的方法自然語言的形式(字符串)與其意義之間是一種多對多的關系,其實這也正是自然語言的魅力所在。但從計算機處理的角度看,人們必須消除歧義,要把帶有潛在歧義的自然語言輸入轉換成某種無歧義的計算機內部表示。11.2.2自然語言處理的方法以基于語言學的方法、基于知識的方法為主流的自然語言處理研究所存在的問題主要有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句子,上下文關系和談話環境對本句的約束和影響還缺乏系統的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。11.2.2自然語言處理的方法另一方面,人理解一個句子不是單憑語法,還運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機里。因此一個書面理解系統只能建立在有限的詞匯、句型和特定的主題范圍內;計算機的貯存量和運轉速度大大提高之后,才有可能適當擴大范圍。11.2.2自然語言處理的方法自然語言處理是一個非常大的領域,它的一些主要任務包括如下。(1)語音識別。是將語音轉換為文本的任務。之后我們可以對生成的文本執行進一步的任務(如問答)。取決于測試集的具體情況,語音識別系統的單詞錯誤率大約為3%~5%,與人工轉錄員的錯誤率相近。語音識別系統面臨的挑戰是即使個別單詞有錯誤,也要做出適當的響應。11.2.3自然語言處理的任務頂級語音識別系統結合了循環神經網絡和隱馬爾可夫模型。2011年,語音領域引入深度神經網絡,錯誤率立即顯著改進了約30%——這一領域似乎已經成熟,之前每年的改進只有幾個百分點。語音識別問題具有自然的成分分解,所以非常適合使用深度神經網絡:從波形到音素再到單詞最后到句子。11.2.3自然語言處理的任務(2)文本-語音合成。是與語音識別相反的過程——將文本轉換為聲音。文本-語音合成面臨的挑戰是如何對每個單詞正確發音,同時通過適當的停頓和強調讓每個句子聽起來自然流暢。另一個發展領域是合成不同的聲音——從普通男性或女性的聲音開始,接著可以合成地方方言,甚至模仿名人的聲音。與語音識別一樣,深層循環神經網絡的引入為文本-語音合成帶來了巨大的進步,大約2/3的聽者認為,采用神經網絡的語音處理系統比之前的非神經網絡系統聽起來更自然。11.2.3自然語言處理的任務(3)機器翻譯。將文本從一種語言轉換到另一種語言,其發展態勢如圖11-5所示。系統通常使用雙語語料庫進行訓練。例如,一組成對的文檔,每對文檔的其中一個使用英語,而另一個使用中文。不需要以任何方式對文檔進行標記;機器翻譯系統學習如何對齊句子和短語,然后當遇到其中一種語言的新語句時,可以生成另一種語言的翻譯。

圖11-5機器翻譯發展歷程11.2.3自然語言處理的任務21世紀早期的機器翻譯系統使用n元模型,系統通常能夠理解文本的含義,但大多數句子都包含文法錯誤。一個問題是n元的長度限制:即使將限制放大到7,信息也很難從句子的一端傳遞到另一端。另一個問題是,一個n元模型中的所有信息都位于單個單詞的層級。這樣的系統可以學習將“blackcat(英語:黑貓)”翻譯成“chatnoir(法語:黑貓)”,但是卻不能學到英語中形容詞通常在名詞之前而法語中形容詞通常在名詞之后這樣的規則。11.2.3自然語言處理的任務序列到序列循環神經網絡模型解決了這一問題。它們可以更好地泛化,并且可以在整個深度網絡的不同層級上形成組合模型,從而有效地傳遞信息。之后的工作使用Transformer(“變壓器”)模型的注意力機制,提高了翻譯性能,對這兩種模型各方面進行結合的混合模型則進一步提升了效果,在某些語言對上達到了人類水平的表現。11.2.3自然語言處理的任務(4)信息提取。是通過瀏覽文本并查找文本中特定類別的對象及其關系來獲取知識的過程。典型的任務包括,從網頁中提取地址實例獲取街道名、城市名、地區名以及郵政編碼等數據庫字段;從天氣預報中提取暴風雨信息,獲取溫度、風速以及降水量等字段。如果源文本具有很好的結構(如以表格的形式),那么像正則表達式之類的簡單技術就可以進行信息提取。11.2.3自然語言處理的任務如果我們試圖提取所有事實,而不僅是特定類型(如天氣預報),那么提取會變得更加困難;TextRunner(文本運行程序)系統在一個開放的不斷擴展的關系集上進行信息提取。對于自由格式的文本,可以使用隱馬爾可夫模型和基于規則的學習系統。如今的系統使用循環神經網絡,以利用詞嵌入的靈活性。11.2.3自然語言處理的任務(5)信息檢索。其任務是查找與給定查詢相關且重要的文檔。百度和谷歌等互聯網搜索引擎每天都會執行數十億次這樣的任務。(6)問答。與信息檢索不同,它的查詢其實是一個問題,如“誰創立了美國海岸警衛隊”,查詢結果也不是一個排好序的文檔列表,而是一個實際答案:“AlexanderHamilton.(亞歷山大·漢密爾頓)”。自20世紀60年代以來,就已經出現了依賴于句法分析的問答系統,但是直到2001年,這類系統才開始使用網頁信息檢索,從根本上增加了系統的覆蓋范圍。11.2.3自然語言處理的任務在數學、邏輯和計算機科學中,所謂“形式語言”是用精確的數學或機器可處理的公式定義的語言。形式語言一般有兩個方面:語法和語義。專門研究語言語法的數學和計算機科學分支叫做形式語言理論,其中的形式語言就是一個字母表上的某些有限長字符串的集合。一個形式語言可以包含無限多個字符串,然而自然語言(如英語或漢語)就無法如此清晰地表示。11.2.4語言模型我們將語言模型定義為描述任意字符串可能性的概率分布。通過語言模型可以預測文本中接下來可能出現的單詞,從而為電子郵件或短信息提供補全建議。可以計算出對文本進行哪些更改會使其具有更高的概率,從而提供拼寫或文法更正建議。通過一對語言模型,可以計算出一個句子最可能的翻譯。用一些示例“問題-答案”對作為訓練數據,可以計算出針對某一問題的最可能的答案。因此,語言模型是各種自然語言任務的核心。語言建模任務本身也可以作為衡量語言理解進度的通用基準。11.2.4語言模型自然語言是復雜的,因此任何語言模型充其量只能是自然語言的一個近似。語言學家愛德華·薩丕爾曾說“沒有一種語言是絕對一成不變的,任何文法都會有所遺漏”。哲學家唐納德·戴維森曾經表達過這樣的意思:沒有一種像Python3.8那樣的確定性的自然語言模型,人們有不同的模型,但人類仍然設法應對過去了,并進行交流。11.2.4語言模型傳統情況下,CNN(卷積神經網絡)和RNN(遞歸神經網絡)幾乎占據著深度學習的半壁江山。而如今,人們正越來越關注Transformer模型結構(圖11-6)。Transformer一開始就是為語言任務而設計的,但它在模仿大腦方面也有著很大的潛力,它是一個利用注意力機制來提高模型訓練速度的深度學習模型。它適用于并行計算,其本身模型的復雜程度使得它在精度和性能上都要高于傳統的CNN和RNN,它完全由Self-attention(自我關注)機制組成,它不僅賦予各種AI應用模型寫文作詩的功能,而且在多模態方面也大放異彩。11.2.4語言模型圖11-6Transformer模型結構11.2.4語言模型PART03語法類型與語義分析自然語言理解的研究工作最早的是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設計方案,此后,自然語言處理歷史大致分為6個時期(表11-1)。11.3語法類型與語義分析表11-1NLP的6個時期11.3語法類型與語義分析自然語言處理的歷史可追溯到以圖靈的計算算法模型為基礎的計算機科學發展之初。在奠定了初步基礎后,該領域出現了許多子領域,每個子領域都為計算機進一步的研究提供了沃土。隨著計算機的速度和內存的不斷增加,可用的高性能計算系統加速了發展。隨著大量用戶可用更多的計算能力,語音和語言處理技術可以應用于商業領域。特別是在各種環境中,具有拼寫/語法校正工具的語音識別變得更加常用。由于信息檢索和信息提取成了Web應用的關鍵部分,因此Web是這些應用的另一個主要推動力。11.3語法類型與語義分析近年來,無監督的統計方法重新得到關注。這些方法有效地應用到了對單獨、未加注釋的數據進行機器翻譯方面。可靠、已注釋的語料庫的開發成本成了監督學習方法使用的限制因素。11.3語法類型與語義分析在自然語言處理中,我們可以在一些不同結構層次上對語言進行分析,如句法、詞法和語義等,所涉及到的一些關鍵術語簡單介紹如下:詞法——對單詞的形式和結構的研究,還研究詞與詞根以及詞的衍生形式之間的關系。句法——將單詞放在一起形成短語和句子的方式,通常關注句子結構的形成。語義學——語言中對意義進行研究的科學。11.3.1語法類型解析——將句子分解成語言組成部分,并對每個部分的形式、功能和語法關系進行解釋。語法規則決定了解析方式。詞匯——與語言的詞匯、單詞或語素(原子)有關。詞匯源自詞典。語用學——在語境中運用語言的研究。省略——省略了在句法上所需的句子部分,但是,從上下文而言,句子在語義上是清晰的。11.3.1語法類型學習語法是學習語言和教授計算機語言的一種好方法。費根鮑姆等人將語言的語法定義為“指定在語言中所允許語句的格式,指出將單詞組合成形式完整的短語和子句的句法規則。”麻省理工學院的語言學家諾姆·喬姆斯基在對語言語法進行數學式的系統研究中做出了開創性的工作,為計算語言學領域的誕生奠定了基礎。他將形式語言定義為一組由符號詞匯組成的字符串,這些字符串符合語法規則。字符串集對應于所有可能句子的集合,其數量可能無限大。符號的詞匯表對應于有限的字母或單詞詞典。11.3.1語法類型喬姆斯基非常了解形式語法的局限性,提出語言必須在兩個層面上進行分析:表面結構,進行語法上的分析和解析;基礎結構(深層結構),保留句子的語義信息。關于復雜的計算機系統,通過與醫學示例的類比,道江教授總結了表面理解和深層理解之間的區別:“一位患者的臀部有一個膿腫,通過穿刺可以除去這個膿腫。但是,如果他患的是會迅速擴散的癌癥(一個深層次的問題),那么任何次數的穿刺都不能解決這個問題。”11.3.2語義分析研究人員解決這個問題的方法是增加更多的知識,如關于句子的更深層結構的知識、關于句子目的的知識、關于詞語的知識,甚至詳盡地列舉句子或短語的所有可能含義的知識。在過去幾十年中,隨著計算機速度和內存的成倍增長,這種完全枚舉的可能性變得更如現實。11.3.2語義分析在早些時候,機器翻譯主要是通過非統計學方法進行的。翻譯的3種主要方法是:①直接翻譯,即對源文本的逐字翻譯。②使用結構知識和句法解析的轉換法。③中間語言方法,即將源語句翻譯成一般的意義表示,然后將這種表示翻譯成目標語言。這些方法都不是非常成功。圖11-7機器翻譯11.3.3IBM機器翻譯系統隨著IBMCandide系統的發展,20世紀90年代初,機器翻譯開始向統計方法過渡。這個項目對隨后的機器翻譯研究形成了巨大的影響,統計方法在接下來的幾年中開始占據主導地位。在語音識別的上下文中己經開發了概率算法,IBM將此概率算法應用于機器翻譯研究。概率統計方法是過去幾十年中自然語言處理的準則,NLP研究以統計作為主要方法,解決在這個領域中長期存在的問題,被稱之為“統計革命”。11.3.3IBM機器翻譯系統PART04處理數據與處理工具現代NLP算法是基于機器學習,特別是統計機器學習的,它不同于早期的嘗試語言處理,通常涉及大量的規則編碼。11.4處理數據與處理工具統計方法需要大量數據才能訓練概率模型。出于這個目的,在語言處理應用中,使用了大量的文本和口語集。這些集由大量句子組成,人類注釋者對這些句子進行了語法和語義信息的標記。自然語言處理中的一些典型的自然語言處理數據集包括:tc-corpus-train(語料庫訓練集)、面向文本分類研究的中英文新聞分類語料、以IG卡方等特征詞選擇方法生成的多維度ARFF格式中文VSM模型、萬篇隨機抽取論文中文DBLP資源、用于非監督中文分詞算法的中文分詞詞庫、UCI評價排序數據、帶有初始化說明的情感分析數據集等。11.4.1統計自然語言處理數據集許多不同類型的機器學習算法已應用于自然語言處理任務,這些算法的輸入是一大組從輸入數據生成的“特征”。一些最早使用的算法,如決策樹,產生類似于手寫的if-then規則。隨著越來越多的研究集中于統計模型,人們愈加重視基于附加實數值的權重,每個輸入要素的可適應性,概率的決策性等。此類模型能夠表達許多不同的可能答案,而不是只有一個相對的確定性,這種模型被包括作為較大系統的一個組成部分。11.4.2自然語言處理工具(1)OpenNLP:是一個基于Java機器學習工具包,用于處理自然語言文本。支持大多數常用的NLP任務,例如:標識化、句子切分、部分詞性標注、名稱抽取、組塊、解析等。11.4.2自然語言處理工具(2)FudanNLP:主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習算法和數據集。本工具包及其包含數據集使用LGPL3.0許可證,其開發語言為Java,主要功能是:·文本分類:新聞聚類;·中文分詞:詞性標注、實體名識別、關鍵詞抽取、依存句法分析、時間短語識別;·結構化學習:在線學習、層次分類、聚類、精確推理。11.4.2自然語言處理工具(3)語言技術平臺:是哈工大社會計算與信息檢索研究中心歷時十年開發的一整套中文語言處理系統,系統制定了基于XML的語言處理結果表示,并在此基礎上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術),以及基于動態鏈接庫的應用程序接口,可視化工具,并且能夠以網絡服務的形式進行使用。11.4.2自然語言處理工具自然語言處理的技術難點一般有:(1)單詞的邊界界定。在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。(2)詞義的消歧。許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。11.4.3自然語言處理技術難點(3)句法的模糊性。自然語言的文法通常是模棱兩可的,針對一個句子通常可能會剖析出多棵剖析樹,而我們必須要仰賴語意及前后文的信息才能在其中選擇一棵最為適合的剖析樹。(4)有瑕疵的或不規范的輸入。例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字符識別(OCR)的錯誤。11.4.3自然語言處理技術難點(5)語言行為與計劃。句子常常并不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個好的回答應當是把鹽遞過去;在大多數上下文環境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠了我拿不到”也是可以接受的。再者,如果一門課程上一年沒開設,對于提問“這門課程去年有多少學生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。11.4.3自然語言處理技術難點PART05語音處理語音處理是研究語音發聲過程、語音信號的統計特性、語音的自動識別、機器合成以及語音感知等各種處理技術的總稱。由于現代的語音處理技術都以數字計算為基礎,并借助微處理器、信號處理器或通用計算機加以實現,因此也稱數字語音信號處理。語音信號處理是一門多學科的綜合技術。它以生理、心理、語言以及聲學等基本實驗為基礎,以信息論、控制論、系統論的理論作指導,通過應用信號處理、統計分析、模式識別等現代技術手段,發展成為新的學科。11.5語音處理語音信號處理的研究起源于對發音器官的模擬。1939年美國H.杜德萊展示了一個簡單的發音過程模擬系統,以后發展為聲道的數字模型。利用該模型可以對語音信號進行各種頻譜及參數的分析,進行通信編碼或數據壓縮的研究,同時也可根據分析獲得的頻譜特征或參數變化規律,合成語音信號,實現機器的語音合成。利用語音分析技術,還可以實現對語音的自動識別,發音人的自動辨識,如果與人工智能技術結合,還可以實現各種語句的自動識別以至語言的自動理解,從而實現人機語音交互應答系統,真正賦予計算機以聽覺的功能。11.5.1語音處理的發展語言信息主要包含在語音信號的參數之中,因此準確而迅速地提取語言信號的參數是進行語音信號處理的關鍵。常用的語音信號參數有:共振峰幅度、頻率與帶寬、音調和噪音、噪音的判別等。后來又提出了線性預測系數、聲道反射系數和倒譜參數等參數。這些參數僅僅反映了發音過程中的一些平均特性,而實際語言的發音變化相當迅速,需要用非平穩隨機過程來描述,因此,20世紀80年代之后,研究語音信號非平穩參數分析方法迅速發展,人們提出了一整套快速的算法,還有利用優化規律實現以合成信號統計分析參數的新算法,取得了很好的效果。11.5.1語音處理的發展當語音處理向實用化發展時,人們發現許多算法的抗環境干擾能力較差。因此,在噪聲環境下保持語音信號處理能力成為了一個重要課題。這促進了語音增強的研究。一些具有抗干擾性的算法相繼出現。當前,語音信號處理日益同智能計算技術和智能機器人的研究緊密結合,成為智能信息技術中的一個重要分支。11.5.1語音處理的發展語音信號處理在通信、國防等部門中有著廣闊的應用領域。為了改善通信中語言信號的質量而研究的各種頻響修正和補償技術,為了提髙效率而研究的數據編碼壓縮技術,以及為了改善通信條件而研究的噪聲抵消及干擾抑制技術,都與語音處理密切相關。在金融部門應用語音處理,開始利用說話人識別和語音識別實現根據用戶語音自動存款、取款的業務。在儀器儀表和控制自動化生產中,利用語音合成讀出測量數據和故障警告。隨著語音處理技術的發展,可以預期它將在更多部門得到應用。11.5.1語音處理的發展人們通常更方便說話而不是打字,因此語音識別軟件非常受歡迎。口述命令比用鼠標或觸摸板點擊按鈕更快。要在Windows中打開如“記事本”這樣的程序,需要單擊開始、程序、附件,最后點擊記事本,最輕松也需要點擊四到五次。語音識別軟件允許用戶簡單地說“打開記事本”,就可以打開程序,節省了時間,有時也改善了心情。11.5.2語音理解語音理解是指利用知識表達和組織等人工智能技術進行語句自動識別和語意理解。同語音識別的主要不同點是對語法和語義知識的充分利用程度。語音理解起源于1971年美國遠景研究計劃局(ARPA)資助的一個龐大研究項目,該項目要達到的目標叫做語音理解系統。由于人對語音有廣泛的知識,可以對要說的話有一定的預見性,所以人對語音具有感知和分析能力。依靠人對語言和談論的內容所具有的廣泛知識,利用知識提高計算機理解語言的能力,就是語音理解研究的核心。11.5.2語音理解利用理解能力,可以使系統提高性能:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論