語音識別的研究現狀和應用前景_第1頁
語音識別的研究現狀和應用前景_第2頁
語音識別的研究現狀和應用前景_第3頁
語音識別的研究現狀和應用前景_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、語音識別的研究現狀和應用前景語音識別技術并不是一夜之間冒出來的神話,早在三四十年前,在美國的一些大學和研究單位,就已經有人開始從事這一方向的研究,并有一些相關論文發表;七十年代前后,研究的脈絡日漸清晰,于是貝爾實驗室和國際商用機器公司(IBM)等都先后建立了專門的研究機構。今天這兩家公司在這一領域都已取得了顯著的成果,并且在商業上應用成功,但貝爾實驗室主要是偏重于電信方面應用的語音識別系統,如電話查詢等;而IBM則偏重于商務應用,因而在連續語音識別上取得了不小的成功。不談商業方面的應用,事實上,很多家公司都提供語音識別的引擎(Engne)并且都表示能支持微軟的SAPI。看一看SAPI4.0SU

2、TE就不難發現,微軟在這方面的研究并不遜于任何一家公司,只是很奇怪它居然沒有將成果商業化。微軟同時提供了一系列引擎,如SpechRcognitOn(語音識另力、Command&Cbntol(發布指令并控制)、PhoneQuery(電話語音識另以Texttospech(文本語音轉換)等。今天,許多用戶已經能享受到語音技術的優勢了,可以對計算機發送命令,或者要求計算機記錄下用戶所說的話,以及將文本轉換成聲音朗讀出來。盡管如此,距離真正的人機自由交流的前景似乎還遠。目前,計算機還需要對用戶作大量訓練才能識別用戶的語音。并且,識別率也并不總是盡如人意。換言之,語音識別技術還有一段路需要走,要做

3、到真正成功的商業化,它還必須在很多方面取得突破性進展,這實際就是其技術的未來走向。就算法模型方面而言,需要有進一步的突破。目前能看出它的一些明顯不足,尤其在中文語音識別方面,語言模型還有待完善,因為語言模型和聲學模型正是聽寫識別的基礎,這方面沒有突破,語音識別的進展就只能是一句空話。目前使用的語言模型只是一種概率模型,還沒有用到以語言學為基礎的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進展,這是一個相當艱苦的工作。此外,隨著硬件資源的不斷發展,一些核心算法如特征提取、搜索算法或者自適應算法將有可能進一步改進。可以相信,半導體和軟件技術的共同進步將為語音識別技術的基礎性工作帶

4、來福音。就自適應方面而言,語音識別技術也有待進一步改進。目前,象IBM的MaWice和Asiaworks的SPK都需要用戶在使用前進行幾百句話的訓練,以讓計算機適應你的聲音特征。這必然限制了語音識別技術的進一步應用,大量的訓練不僅讓用戶感到厭煩,而且加大了系統的負擔。并且,不能指望將來的消費電子應用產品也針對單個消費者進行訓練。因此,必須在自適應方面有進一步的提高,做到不受特定人、口音或者方言的影響,這實際上也意味著對語言模型的進一步改進。現實世界的用戶類型是多種多樣的,就聲音特征來講有男音、女音和童音的區別,此外,許多人的發音離標準發音差距甚遠,這就涉及到對口音或方言的處理。如果語音識別能做

5、到自動適應大多數人的聲線特征,那可能比提高一二個百分點識別率更重要。事實上,MaWCe的應用前景也因為這一點打了折扣,只有普通話說得很好的用戶才可以在其中文版連續語音識別方面取得相對滿意的成績。就強健性方面而言,語音識別技術需要能排除各種環境因素的影響。目前,對語音識別效果影響最大的就是環境雜音或嗓音,在公共場合,你幾乎不可能指望計算機能聽懂你的話,來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術的應用范圍,目前,要在嘈雜環境中使用語音識別技術必須有特殊的抗嗓(NoseCancelaton)麥克風才能進行,這對多數用戶來說是不現實的。在公共場合中,個人能有意識地摒棄環境嗓音并

6、從中獲取自己所需要的特定聲音,如何讓語音識別技術也能達成這一點呢?這的確是一個艱巨的任務。此外,帶寬問題也可能影響語音的有效傳送,在速率低于1000比特/秒的極低比特率下,語音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語音,以及水聲通信、地下通信、戰略及保密話音通信等,要在這些情況下實現有效的語音識別,就必須處理聲音信號的特殊特征,如因為帶寬而延遲或減損等。語音識別技術要進一步應用,就必須在強健性方面有大的突破。多語言混合識別以及無限詞匯識別方面目前使用的聲學模型和語音模型太過于局限,以至用戶只能使用特定語音進行特定詞匯的識別。如果突然從中文轉為英文,或者法文、俄文,計

7、算機就會不知如何反應,而給出一堆不知所云的句子;或者用戶偶爾使用了某個專門領域的專業術語,如"信噪比"等,可能也會得到奇怪的反應。這一方面是由于模型的局限,另一方面也受限于硬件資源。隨著兩方面的技術的進步,將來的語音和聲學模型可能會做到將多種語言混合納入,用戶因此就可以不必在語種之間來回切換。此外,對于聲學模型的進一步改進,以及以語義學為基礎的語言模型的改進,也能幫助用戶盡可能少或不受詞匯的影響,從而可實行無限詞匯識別。任何技術的進步都是為了更進一步拓展我們人類的生存和交流空間,以使我們獲得更大的自由,就服務于人類而言,這一點顯然也是語音識別技術的發展方向,而為了達成這一點

8、,它還需要在上述幾個方面取得突破性進展,要實現這一點,Intel架構平臺的性能進步也是一個關鍵的因素,最終,多語種自由交流系統將帶給我們全新的生活空間。語音識別技術的廣闊應用前景語音識別技術的發展的確經歷了一個漫長的漸進過程。二十多年前,它還只是科研人員在實驗室里描述的一個夢想般的希望,但兩個方面的進步終于促成了這一技術的平民化。其一,半導體技術的發展使得以前只有在巨型機上才能進行的語音識別系統如今在微機上就可以實現。無疑,英特爾公司在這其中扮演了重要的角色,今天,多數的普通家庭都對aintelInsde這樣一句廣告詞耳熟能詳,并且也具備足夠的支付能力來使用一臺高性能微機;其二,軟件技術的演進

9、也使得這項技術走向實用,一些核心算法,如特征提取、語音的聲學摸型及相應的語言模型,搜索算法及自適應算法等都取得了長足的進展。軟硬件技術的有效結合為我們提供了一種全新的遠景。很顯然,語音處理正在革新這個世界,因為一旦賦予人類語音以力量之后,任何會說話的人都將能自由地應用這種技術。并且,這也是現存的最為自然的用戶界面。多數人可能都懷著一種模糊而激動的心情期待著這一新技術的來臨,然而,語音識別技術確切地能夠為我們帶來什么呢?許多行業還并未清晰地意識到該技術所可能開拓的廣闊空間。但是,就目前的發展勢態及技術進步來看,它將有可能涉足人類生活的每一領域。目前,在信息處理、教育與商務應用、消費電子應用方面,

10、語音識別技術都已經展現出了它的巨大優勢。一、語音識別技術在信息處理領域的應用:個人電腦的普及在中國一直有著不小的障礙。多數的中國用戶往往會被其復雜的用戶界面弄得不知所措。此外,漢字輸入也是計算機應用的一個困難,即使五筆字型已經如此著名,但愿意花時間去學并且學好的人也并不很多,而拼音輸入對于發音不太準或拼音基礎不好的人來講也成問題。因此,語音識別技術至少首先在這兩個方面有著廣闊的應用。簡單地講,語音識別技術在信息處理領域的首要的巨大應用將在于提供了一種全新的人機交互形式,在這樣一種形式之下,將會拓展出許多應用分支:1 .給計算機發送指令(Conmand&Coitio):Windows的圖

11、形用戶界面雖然已經大大簡化了操作環境,但大多數用戶仍然會在其中迷失方向。而且,日益出現的新領域也超過了一般用戶的理解能力。而現在,隨著語音識別技術的應用,計算機將會象是一位與你交談的伙伴,你可能只需要對著話筒說幾句話,就可以實現那些隱藏在Windows層層菜單后面的功能。目前,國際商用機器公司(IBM)在這方面已經有成熟的產品。國內購買聯想微機的用戶想必已經體到了這一技術的優勢,語音輸入已經取代鍵盤和鼠標成為你與計算機交流的又一方式。2 .聽寫系統(DiCatior):去年9月4日IBM在人民大會堂召開的新聞發布會上就宣布了這一成熟技術商品化應用的成功,它的最主要特征是實現了中文連續語音識別,

12、這標志著中文語音識別技術劃時代的進展,,這套系統還實現了非特定語音的識別,中文輸入速度可達到平均每分鐘150字,平均最高識別率達到95%,并具有“自我”學習的功能,很顯然這將大大降低計算機應用的障礙,并簡化了信息處理的方式。3 .信息查詢:由于語音識別技術使得計算機能夠聽懂指令,因此,將語音識另h語言理解與大量的數據庫檢索和查詢技術相結合,就能夠實現更輕松的信息查詢方式。比如,圖書館的資料信息將能夠對來自用戶的語音輸入進行理解,并將它轉化為相應的指令,從數據庫中獲取結果并返回給用戶。公司的決策者也不用再花很多時間來研究如何使用軟件,他只要對著計算機表達出他所需要的信息就可以了,使用者通過簡單的

13、命令就可以獲得當下的資料。4 .網上交談可能對于多數中國用戶來講,網上交談還是一個憧憬,但實際上技術就在你的身邊,你只需要拿起來使用就可以了。網上交談有兩個層次目前很流行的“聊天室"還限于文字層面,你盡可以對著話筒說就是了,計算機將及時把它轉成文字并發送出去;最為理想的網上交談是語音識別技術、機器翻譯技術和語音合成技術的完美結合,這意味著你可以面對世界上任何地方的某個人,雖然你們彼此并不懂對方的語言,而且遠在天涯,卻可以自由地交談。當你對著話筒說完后,計算機會識別你的語音并轉化為文字,而機器輔助翻譯則會馬上將這些文字翻譯成對方的文字并傳送過去,對方的計算機則將這些文字再合成為語音并讀

14、出來,整個過程類似于“同聲傳譯:只是機器在這里充當了主角。二、教育與商務應用;在教育與商務領域,語音識別技術的應用前景也是廣泛的。1 .語音教學軟件就教育領域來講,語音識別技術的最直接的應用就是幫助用戶更好地練習語言技巧。在過去,用戶只是通過簡單的模仿來進行學習,而無法精確地比較自己發音的差異,我曾見過一家美國公司開發的一套TaktoMe,當用戶跟著計算機說完一句話后,計算機會同時顯示標準發音和用戶發音的波形比照圖,并給出分數。用戶通過比較波形圖就可以發現自己在某個發音細節方面的差異,并且可以反復對比傾聽來體會這種差異。同時,基于語音比較技術而給出的分數也更具有公正性,并可以激勵用戶的學習潛質

15、;我還見過另一家美國公司開發的一套幼教兒童產品,孩子可以對著話筒指揮動物做各種動作,從而借此來學習語言技能,不難想象,將語音技術應用于教育方面的空間是極其巨大的,目前雙語公司也正考慮推出這方面的產品。2 .電話查詢:語音識別技術的另一個發展分支就是電話語音識別技術的發展,貝爾實驗室是這方面的先驅,電話語音識別技術將能夠實現電話查詢、自動接線以及一些專門業務如旅游信息等的操作,但電話語音識別的難度還包括對冗余信息的處理,因為人們的日常口語中多數是沒有特定意義的。我曾見過貝爾實驗室和菲利普公司各自開發的電話查詢系統,都已做得相當出色,電話彼端的計算機系統處理來自查詢者的信息并作出相應的應答,比如查

16、詢天氣信息、公司特定員工電話號碼等等。3 .電子商務:隨著網格技術的進一步發展,電子商務也正在日漸流行,設想一下,你也許只需要坐在家中,通過向計算機發布命令就可以實現網上購物,從而免掉跋涉之勞,語音識別技術和電子商務的結合,將創造一種全新的交易方式。類似的,語音技術還可以用于聲導系統等,總之,它將有可能改變我們的整個商業運作模式,并創造更大的便利。三、消費電子產品應用計算機的發展方向將可能使得語音識技術在手持電腦上進行,乃至固定到一個小小的芯片上,假如確實能夠在一個指頭大小的芯片上應用語音識別技術,那將不僅僅只是給用戶帶來一些方便而已。事實上,將這些算法嵌入到更小的芯片中去,將為語音識別應用開拓更新的領域。現在,一般的家電產品,機械系統乃至各

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論