語音識別的研究現(xiàn)狀和應(yīng)用前景

上傳人：d*** IP屬地：天津上傳時間：2022-03-14 格式：DOCX 頁數(shù)：4 大小：17.54KB 積分：12 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、語音識別的研究現(xiàn)狀和應(yīng)用前景語音識別技術(shù)并不是一夜之間冒出來的神話，早在三四十年前，在美國的一些大學(xué)和研究單位，就已經(jīng)有人開始從事這一方向的研究，并有一些相關(guān)論文發(fā)表；七十年代前后，研究的脈絡(luò)日漸清晰，于是貝爾實(shí)驗室和國際商用機(jī)器公司（IBM）等都先后建立了專門的研究機(jī)構(gòu)。今天這兩家公司在這一領(lǐng)域都已取得了顯著的成果，并且在商業(yè)上應(yīng)用成功，但貝爾實(shí)驗室主要是偏重于電信方面應(yīng)用的語音識別系統(tǒng)，如電話查詢等；而IBM則偏重于商務(wù)應(yīng)用，因而在連續(xù)語音識別上取得了不小的成功。不談商業(yè)方面的應(yīng)用，事實(shí)上，很多家公司都提供語音識別的引擎（Engne）并且都表示能支持微軟的SAPI。看一看SAPI4.0SU

2、TE就不難發(fā)現(xiàn)，微軟在這方面的研究并不遜于任何一家公司，只是很奇怪它居然沒有將成果商業(yè)化。微軟同時提供了一系列引擎，如SpechRcognitOn（語音識另力、Command&Cbntol（發(fā)布指令并控制）、PhoneQuery（電話語音識另以Texttospech（文本語音轉(zhuǎn)換）等。今天，許多用戶已經(jīng)能享受到語音技術(shù)的優(yōu)勢了，可以對計算機(jī)發(fā)送命令，或者要求計算機(jī)記錄下用戶所說的話，以及將文本轉(zhuǎn)換成聲音朗讀出來。盡管如此，距離真正的人機(jī)自由交流的前景似乎還遠(yuǎn)。目前，計算機(jī)還需要對用戶作大量訓(xùn)練才能識別用戶的語音。并且，識別率也并不總是盡如人意。換言之，語音識別技術(shù)還有一段路需要走，要做

3、到真正成功的商業(yè)化，它還必須在很多方面取得突破性進(jìn)展，這實(shí)際就是其技術(shù)的未來走向。就算法模型方面而言，需要有進(jìn)一步的突破。目前能看出它的一些明顯不足，尤其在中文語音識別方面，語言模型還有待完善，因為語言模型和聲學(xué)模型正是聽寫識別的基礎(chǔ)，這方面沒有突破，語音識別的進(jìn)展就只能是一句空話。目前使用的語言模型只是一種概率模型，還沒有用到以語言學(xué)為基礎(chǔ)的文法模型，而要使計算機(jī)確實(shí)理解人類的語言，就必須在這一點(diǎn)上取得進(jìn)展，這是一個相當(dāng)艱苦的工作。此外，隨著硬件資源的不斷發(fā)展，一些核心算法如特征提取、搜索算法或者自適應(yīng)算法將有可能進(jìn)一步改進(jìn)。可以相信，半導(dǎo)體和軟件技術(shù)的共同進(jìn)步將為語音識別技術(shù)的基礎(chǔ)性工作帶

4、來福音。就自適應(yīng)方面而言，語音識別技術(shù)也有待進(jìn)一步改進(jìn)。目前，象IBM的MaWice和Asiaworks的SPK都需要用戶在使用前進(jìn)行幾百句話的訓(xùn)練，以讓計算機(jī)適應(yīng)你的聲音特征。這必然限制了語音識別技術(shù)的進(jìn)一步應(yīng)用，大量的訓(xùn)練不僅讓用戶感到厭煩，而且加大了系統(tǒng)的負(fù)擔(dān)。并且，不能指望將來的消費(fèi)電子應(yīng)用產(chǎn)品也針對單個消費(fèi)者進(jìn)行訓(xùn)練。因此，必須在自適應(yīng)方面有進(jìn)一步的提高,做到不受特定人、口音或者方言的影響，這實(shí)際上也意味著對語言模型的進(jìn)一步改進(jìn)。現(xiàn)實(shí)世界的用戶類型是多種多樣的，就聲音特征來講有男音、女音和童音的區(qū)別,此外，許多人的發(fā)音離標(biāo)準(zhǔn)發(fā)音差距甚遠(yuǎn)，這就涉及到對口音或方言的處理。如果語音識別能做

5、到自動適應(yīng)大多數(shù)人的聲線特征，那可能比提高一二個百分點(diǎn)識別率更重要。事實(shí)上，MaWCe的應(yīng)用前景也因為這一點(diǎn)打了折扣，只有普通話說得很好的用戶才可以在其中文版連續(xù)語音識別方面取得相對滿意的成績。就強(qiáng)健性方面而言，語音識別技術(shù)需要能排除各種環(huán)境因素的影響。目前，對語音識別效果影響最大的就是環(huán)境雜音或嗓音，在公共場合，你幾乎不可能指望計算機(jī)能聽懂你的話，來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術(shù)的應(yīng)用范圍，目前，要在嘈雜環(huán)境中使用語音識別技術(shù)必須有特殊的抗嗓(NoseCancelaton)麥克風(fēng)才能進(jìn)行，這對多數(shù)用戶來說是不現(xiàn)實(shí)的。在公共場合中，個人能有意識地摒棄環(huán)境嗓音并

6、從中獲取自己所需要的特定聲音，如何讓語音識別技術(shù)也能達(dá)成這一點(diǎn)呢？這的確是一個艱巨的任務(wù)。此外，帶寬問題也可能影響語音的有效傳送，在速率低于1000比特/秒的極低比特率下，語音編碼的研究將大大有別于正常情況，比如要在某些帶寬特別窄的信道上傳輸語音，以及水聲通信、地下通信、戰(zhàn)略及保密話音通信等，要在這些情況下實(shí)現(xiàn)有效的語音識別，就必須處理聲音信號的特殊特征，如因為帶寬而延遲或減損等。語音識別技術(shù)要進(jìn)一步應(yīng)用，就必須在強(qiáng)健性方面有大的突破。多語言混合識別以及無限詞匯識別方面目前使用的聲學(xué)模型和語音模型太過于局限，以至用戶只能使用特定語音進(jìn)行特定詞匯的識別。如果突然從中文轉(zhuǎn)為英文，或者法文、俄文，計

7、算機(jī)就會不知如何反應(yīng)，而給出一堆不知所云的句子；或者用戶偶爾使用了某個專門領(lǐng)域的專業(yè)術(shù)語,如"信噪比"等，可能也會得到奇怪的反應(yīng)。這一方面是由于模型的局限，另一方面也受限于硬件資源。隨著兩方面的技術(shù)的進(jìn)步，將來的語音和聲學(xué)模型可能會做到將多種語言混合納入，用戶因此就可以不必在語種之間來回切換。此外，對于聲學(xué)模型的進(jìn)一步改進(jìn)，以及以語義學(xué)為基礎(chǔ)的語言模型的改進(jìn)，也能幫助用戶盡可能少或不受詞匯的影響，從而可實(shí)行無限詞匯識別。任何技術(shù)的進(jìn)步都是為了更進(jìn)一步拓展我們?nèi)祟惖纳婧徒涣骺臻g，以使我們獲得更大的自由，就服務(wù)于人類而言，這一點(diǎn)顯然也是語音識別技術(shù)的發(fā)展方向，而為了達(dá)成這一點(diǎn)

8、，它還需要在上述幾個方面取得突破性進(jìn)展，要實(shí)現(xiàn)這一點(diǎn)，Intel架構(gòu)平臺的性能進(jìn)步也是一個關(guān)鍵的因素，最終，多語種自由交流系統(tǒng)將帶給我們?nèi)碌纳羁臻g。語音識別技術(shù)的廣闊應(yīng)用前景語音識別技術(shù)的發(fā)展的確經(jīng)歷了一個漫長的漸進(jìn)過程。二十多年前，它還只是科研人員在實(shí)驗室里描述的一個夢想般的希望，但兩個方面的進(jìn)步終于促成了這一技術(shù)的平民化。其一，半導(dǎo)體技術(shù)的發(fā)展使得以前只有在巨型機(jī)上才能進(jìn)行的語音識別系統(tǒng)如今在微機(jī)上就可以實(shí)現(xiàn)。無疑，英特爾公司在這其中扮演了重要的角色，今天，多數(shù)的普通家庭都對aintelInsde這樣一句廣告詞耳熟能詳，并且也具備足夠的支付能力來使用一臺高性能微機(jī)；其二，軟件技術(shù)的演進(jìn)

9、也使得這項技術(shù)走向?qū)嵱茫恍┖诵乃惴ǎ缣卣魈崛　⒄Z音的聲學(xué)摸型及相應(yīng)的語言模型，搜索算法及自適應(yīng)算法等都取得了長足的進(jìn)展。軟硬件技術(shù)的有效結(jié)合為我們提供了一種全新的遠(yuǎn)景。很顯然，語音處理正在革新這個世界，因為一旦賦予人類語音以力量之后，任何會說話的人都將能自由地應(yīng)用這種技術(shù)。并且，這也是現(xiàn)存的最為自然的用戶界面。多數(shù)人可能都懷著一種模糊而激動的心情期待著這一新技術(shù)的來臨，然而，語音識別技術(shù)確切地能夠為我們帶來什么呢？許多行業(yè)還并未清晰地意識到該技術(shù)所可能開拓的廣闊空間。但是，就目前的發(fā)展勢態(tài)及技術(shù)進(jìn)步來看，它將有可能涉足人類生活的每一領(lǐng)域。目前，在信息處理、教育與商務(wù)應(yīng)用、消費(fèi)電子應(yīng)用方面，

10、語音識別技術(shù)都已經(jīng)展現(xiàn)出了它的巨大優(yōu)勢。一、語音識別技術(shù)在信息處理領(lǐng)域的應(yīng)用：個人電腦的普及在中國一直有著不小的障礙。多數(shù)的中國用戶往往會被其復(fù)雜的用戶界面弄得不知所措。此外，漢字輸入也是計算機(jī)應(yīng)用的一個困難，即使五筆字型已經(jīng)如此著名，但愿意花時間去學(xué)并且學(xué)好的人也并不很多，而拼音輸入對于發(fā)音不太準(zhǔn)或拼音基礎(chǔ)不好的人來講也成問題。因此，語音識別技術(shù)至少首先在這兩個方面有著廣闊的應(yīng)用。簡單地講，語音識別技術(shù)在信息處理領(lǐng)域的首要的巨大應(yīng)用將在于提供了一種全新的人機(jī)交互形式，在這樣一種形式之下，將會拓展出許多應(yīng)用分支：1 .給計算機(jī)發(fā)送指令(Conmand&Coitio):Windows的圖

11、形用戶界面雖然已經(jīng)大大簡化了操作環(huán)境，但大多數(shù)用戶仍然會在其中迷失方向。而且，日益出現(xiàn)的新領(lǐng)域也超過了一般用戶的理解能力。而現(xiàn)在，隨著語音識別技術(shù)的應(yīng)用，計算機(jī)將會象是一位與你交談的伙伴，你可能只需要對著話筒說幾句話，就可以實(shí)現(xiàn)那些隱藏在Windows層層菜單后面的功能。目前，國際商用機(jī)器公司(IBM)在這方面已經(jīng)有成熟的產(chǎn)品。國內(nèi)購買聯(lián)想微機(jī)的用戶想必已經(jīng)體到了這一技術(shù)的優(yōu)勢，語音輸入已經(jīng)取代鍵盤和鼠標(biāo)成為你與計算機(jī)交流的又一方式。2 .聽寫系統(tǒng)(DiCatior)：去年9月4日IBM在人民大會堂召開的新聞發(fā)布會上就宣布了這一成熟技術(shù)商品化應(yīng)用的成功，它的最主要特征是實(shí)現(xiàn)了中文連續(xù)語音識別，

12、這標(biāo)志著中文語音識別技術(shù)劃時代的進(jìn)展,，這套系統(tǒng)還實(shí)現(xiàn)了非特定語音的識別，中文輸入速度可達(dá)到平均每分鐘150字，平均最高識別率達(dá)到95%,并具有“自我”學(xué)習(xí)的功能，很顯然這將大大降低計算機(jī)應(yīng)用的障礙，并簡化了信息處理的方式。3 .信息查詢：由于語音識別技術(shù)使得計算機(jī)能夠聽懂指令，因此，將語音識另h語言理解與大量的數(shù)據(jù)庫檢索和查詢技術(shù)相結(jié)合，就能夠?qū)崿F(xiàn)更輕松的信息查詢方式。比如，圖書館的資料信息將能夠?qū)碜杂脩舻恼Z音輸入進(jìn)行理解，并將它轉(zhuǎn)化為相應(yīng)的指令，從數(shù)據(jù)庫中獲取結(jié)果并返回給用戶。公司的決策者也不用再花很多時間來研究如何使用軟件，他只要對著計算機(jī)表達(dá)出他所需要的信息就可以了，使用者通過簡單的

13、命令就可以獲得當(dāng)下的資料。4 .網(wǎng)上交談可能對于多數(shù)中國用戶來講，網(wǎng)上交談還是一個憧憬，但實(shí)際上技術(shù)就在你的身邊，你只需要拿起來使用就可以了。網(wǎng)上交談有兩個層次目前很流行的“聊天室"還限于文字層面，你盡可以對著話筒說就是了，計算機(jī)將及時把它轉(zhuǎn)成文字并發(fā)送出去；最為理想的網(wǎng)上交談是語音識別技術(shù)、機(jī)器翻譯技術(shù)和語音合成技術(shù)的完美結(jié)合，這意味著你可以面對世界上任何地方的某個人，雖然你們彼此并不懂對方的語言，而且遠(yuǎn)在天涯，卻可以自由地交談。當(dāng)你對著話筒說完后，計算機(jī)會識別你的語音并轉(zhuǎn)化為文字，而機(jī)器輔助翻譯則會馬上將這些文字翻譯成對方的文字并傳送過去，對方的計算機(jī)則將這些文字再合成為語音并讀

14、出來，整個過程類似于“同聲傳譯:只是機(jī)器在這里充當(dāng)了主角。二、教育與商務(wù)應(yīng)用；在教育與商務(wù)領(lǐng)域，語音識別技術(shù)的應(yīng)用前景也是廣泛的。1 .語音教學(xué)軟件就教育領(lǐng)域來講，語音識別技術(shù)的最直接的應(yīng)用就是幫助用戶更好地練習(xí)語言技巧。在過去，用戶只是通過簡單的模仿來進(jìn)行學(xué)習(xí)，而無法精確地比較自己發(fā)音的差異，我曾見過一家美國公司開發(fā)的一套TaktoMe，當(dāng)用戶跟著計算機(jī)說完一句話后，計算機(jī)會同時顯示標(biāo)準(zhǔn)發(fā)音和用戶發(fā)音的波形比照圖，并給出分?jǐn)?shù)。用戶通過比較波形圖就可以發(fā)現(xiàn)自己在某個發(fā)音細(xì)節(jié)方面的差異，并且可以反復(fù)對比傾聽來體會這種差異。同時，基于語音比較技術(shù)而給出的分?jǐn)?shù)也更具有公正性，并可以激勵用戶的學(xué)習(xí)潛質(zhì)

15、；我還見過另一家美國公司開發(fā)的一套幼教兒童產(chǎn)品，孩子可以對著話筒指揮動物做各種動作，從而借此來學(xué)習(xí)語言技能，不難想象，將語音技術(shù)應(yīng)用于教育方面的空間是極其巨大的，目前雙語公司也正考慮推出這方面的產(chǎn)品。2 .電話查詢：語音識別技術(shù)的另一個發(fā)展分支就是電話語音識別技術(shù)的發(fā)展，貝爾實(shí)驗室是這方面的先驅(qū)，電話語音識別技術(shù)將能夠?qū)崿F(xiàn)電話查詢、自動接線以及一些專門業(yè)務(wù)如旅游信息等的操作，但電話語音識別的難度還包括對冗余信息的處理，因為人們的日常口語中多數(shù)是沒有特定意義的。我曾見過貝爾實(shí)驗室和菲利普公司各自開發(fā)的電話查詢系統(tǒng)，都已做得相當(dāng)出色，電話彼端的計算機(jī)系統(tǒng)處理來自查詢者的信息并作出相應(yīng)的應(yīng)答，比如查

16、詢天氣信息、公司特定員工電話號碼等等。3 .電子商務(wù)：隨著網(wǎng)格技術(shù)的進(jìn)一步發(fā)展，電子商務(wù)也正在日漸流行，設(shè)想一下，你也許只需要坐在家中，通過向計算機(jī)發(fā)布命令就可以實(shí)現(xiàn)網(wǎng)上購物，從而免掉跋涉之勞，語音識別技術(shù)和電子商務(wù)的結(jié)合，將創(chuàng)造一種全新的交易方式。類似的，語音技術(shù)還可以用于聲導(dǎo)系統(tǒng)等，總之，它將有可能改變我們的整個商業(yè)運(yùn)作模式，并創(chuàng)造更大的便利。三、消費(fèi)電子產(chǎn)品應(yīng)用計算機(jī)的發(fā)展方向?qū)⒖赡苁沟谜Z音識技術(shù)在手持電腦上進(jìn)行，乃至固定到一個小小的芯片上，假如確實(shí)能夠在一個指頭大小的芯片上應(yīng)用語音識別技術(shù)，那將不僅僅只是給用戶帶來一些方便而已。事實(shí)上，將這些算法嵌入到更小的芯片中去,將為語音識別應(yīng)用開拓更新的領(lǐng)域。現(xiàn)在，一般的家電產(chǎn)品，機(jī)械系統(tǒng)乃至各

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

語音識別的研究現(xiàn)狀和應(yīng)用前景

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

語音識別的研究現(xiàn)狀和應(yīng)用前景

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔