



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、語(yǔ)音識(shí)別技術(shù)的發(fā)展與未來(lái)與機(jī)器進(jìn)行語(yǔ)音交流, 讓它聽(tīng)明白你在說(shuō)什么。 語(yǔ)音識(shí)別技術(shù)將人類這一曾經(jīng)的夢(mèng)想變成了 現(xiàn)實(shí)。語(yǔ)音識(shí)別就好比“機(jī)器的聽(tīng)覺(jué)系統(tǒng)” ,該技術(shù)讓機(jī)器通過(guò)識(shí)別和理解,把語(yǔ)音信號(hào)轉(zhuǎn) 變?yōu)橄鄳?yīng)的文本或命令。在 1952 年的貝爾研究所, Davis 等人研制了世界上第一個(gè)能識(shí)別 10 個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn) 系統(tǒng)。 1960 年英國(guó)的 Denes 等人研制了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。大規(guī)模的語(yǔ)音識(shí)別研究始于上世紀(jì) 70 年代以后,并在小詞匯量、孤立詞的識(shí)別方面取得了 實(shí)質(zhì)性的進(jìn)展。上世紀(jì) 80 年代以后,語(yǔ)音識(shí)別研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連 續(xù)語(yǔ)音識(shí)別。同時(shí),語(yǔ)音識(shí)別在研究思
2、路上也發(fā)生了重大變化, 由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi) 始轉(zhuǎn)向基于統(tǒng)計(jì)模型的技術(shù)思路。 此外, 業(yè)內(nèi)有專家再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí) 別問(wèn)題的技術(shù)思路。上世紀(jì) 90 年代以后,在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。比如,DARPA是在上世界70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)計(jì)劃,旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作。進(jìn)入上世紀(jì) 90年代,DARPA十劃仍在持續(xù)進(jìn)行中,其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分, 識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索” 。我國(guó)的語(yǔ)音識(shí)別研究起始于 1958年,由中國(guó)科學(xué)院聲學(xué)所利用
3、電子管電路識(shí)別 10個(gè)元音。 由于當(dāng)時(shí)條件的限制,中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。直至1973 年,中國(guó)科學(xué)院聲學(xué)所開(kāi)始了十算機(jī)語(yǔ)音識(shí)別。進(jìn)入上世紀(jì) 80 年代以來(lái),隨著十算機(jī)應(yīng)用技術(shù)在我國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展, 國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。 與此同時(shí), 國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)了多年的沉寂之后重又成為研究的熱點(diǎn)。在這種形式下, 國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。1986 年,語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專門(mén)列為研究課題。在“ 863”計(jì)劃的支持下,中國(guó)開(kāi)始組織語(yǔ)音識(shí)別技術(shù)的研究,并決定了每隔兩年召開(kāi)一次 語(yǔ)音識(shí)別
4、的專題會(huì)議。自此,我國(guó)語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。自 2009 年以來(lái),借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別 技術(shù)得到突飛猛進(jìn)的發(fā)展。將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練,使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學(xué)模型的準(zhǔn)確率。在此方面,微軟公司的研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(DNN后,語(yǔ)音識(shí)別錯(cuò)誤率降低了30%是近20年來(lái)語(yǔ)音識(shí)別技術(shù)方面最快的進(jìn)步。2009年前后,大多主流的語(yǔ)音識(shí)別解碼器已經(jīng)采用基于有限狀態(tài)機(jī)(WFST的解碼網(wǎng)絡(luò),該解碼網(wǎng)絡(luò)可以把語(yǔ)言模型、 詞典和聲學(xué)共享音字集統(tǒng)一集成為一個(gè)大的解碼網(wǎng)絡(luò),提高了
5、解碼的速度,為語(yǔ)音識(shí)別的實(shí)時(shí)應(yīng)用提供了基礎(chǔ)。隨著互聯(lián)網(wǎng)的快速發(fā)展, 以及手機(jī)等移動(dòng)終端的普及應(yīng)用, 可以從多個(gè)渠道獲取大量文本或 語(yǔ)音方面的語(yǔ)料, 這為語(yǔ)音識(shí)別中的語(yǔ)言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語(yǔ)言模型和聲學(xué)模型成為可能。在語(yǔ)音識(shí)別中, 訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一,但是語(yǔ)料的標(biāo)注和分析需要長(zhǎng)期的積累和沉淀, 隨著大數(shù)據(jù)時(shí)代的來(lái)臨, 大規(guī)模語(yǔ)料資源的積累將提 到戰(zhàn)略高度?,F(xiàn)如今,語(yǔ)音識(shí)別在移動(dòng)終端上的應(yīng)用最為火熱, 語(yǔ)音對(duì)話機(jī)器人、語(yǔ)音助手、互動(dòng)工具等 層出不窮, 許多互聯(lián)網(wǎng)公司紛紛投入人力、 物力和財(cái)力展開(kāi)此方面的研究和應(yīng)用, 目的是
6、通 過(guò)語(yǔ)音交互的新穎和便利模式迅速占領(lǐng)客戶群。 (雨田整理)相關(guān)產(chǎn)品siriSiri技術(shù)來(lái)源于美國(guó)國(guó)防部高級(jí)研究規(guī)劃局所公布的CALO十劃:一個(gè)讓軍方簡(jiǎn)化處理一些繁復(fù)庶務(wù),并具學(xué)習(xí)、組織以及認(rèn)知能力的數(shù)字助理,其所衍生出來(lái)的民用版軟件Siri 虛擬個(gè)人助理。Siri成立于2007年,最初是以文字聊天服務(wù)為主,隨后通過(guò)與語(yǔ)音識(shí)別廠商N(yùn)uanee合作,Siri 實(shí)現(xiàn)了語(yǔ)音識(shí)別功能。 2010 年, Siri 被蘋(píng)果以 2 億美金收購(gòu)。Siri 成為蘋(píng)果公司在其產(chǎn)品 iPhone 和 iPad Air 上應(yīng)用的一項(xiàng)語(yǔ)音控制功能。 Siri 可以令 iPhone 和 iPad Air 變身為一臺(tái)智能化
7、機(jī)器人。 Siri 支持自然語(yǔ)言輸入,并且可以調(diào)用系統(tǒng) 自帶的天氣預(yù)報(bào)、日程安排、搜索資料等應(yīng)用,還能夠不斷學(xué)習(xí)新的聲音和語(yǔ)調(diào),提供對(duì)話式的應(yīng)答。Google NowGoogle Now 是谷歌隨安卓系統(tǒng)同時(shí)推出的一款應(yīng)用,它可以了解用戶的各種習(xí)慣和正在進(jìn) 行的動(dòng)作,并利用所了解的資料來(lái)為用戶提供相關(guān)信息。今年3月24日,谷歌宣布 Google Now語(yǔ)音服務(wù)正式登陸 Windows和Mac桌面版Chrome瀏 覽器。Google Now 的應(yīng)用會(huì)更加方便用戶收取電子郵件,當(dāng)你接收到新郵件時(shí),它就會(huì)自動(dòng)彈出以便你查看。Google Now還推出了步行和行車?yán)锍逃涗浌δ?,這個(gè)計(jì)步器功能可通過(guò) A
8、n droid 設(shè)備的傳感器來(lái)統(tǒng)十用戶每月行駛的里程,包括步行和騎自行車的路程。此外, Google Now 增加了一些旅游和娛樂(lè)特色功能,包括:汽車租賃、演唱會(huì)門(mén)票和通勤 共享方面的卡片; 公共交通和電視節(jié)目的卡片進(jìn)行改善, 這些卡片現(xiàn)在可以聽(tīng)音識(shí)別音樂(lè)和節(jié)目信息;用戶可以為新媒體節(jié)目的開(kāi)播設(shè)定搜索提醒,同時(shí)還可以接收實(shí)時(shí)NCAA(美國(guó)大學(xué)體育協(xié)會(huì))橄欖球比分。百度語(yǔ)音百度語(yǔ)音一般指百度語(yǔ)音搜索, 是百度公司為廣大互聯(lián)網(wǎng)用戶提供的一種基于語(yǔ)音的搜索服 務(wù),用戶可以使用多種客戶端發(fā)起語(yǔ)音搜索, 服務(wù)器端根據(jù)用戶的發(fā)出的語(yǔ)音請(qǐng)求, 進(jìn)行語(yǔ) 音識(shí)別然后將檢索結(jié)果反饋給用戶。百度語(yǔ)音搜索不僅提供一般
9、的通用語(yǔ)音搜索服務(wù),還有針對(duì)地圖用戶制定的特色搜索服務(wù), 后續(xù)還會(huì)有更多的個(gè)性化搜索和識(shí)別服務(wù)出現(xiàn)。目前百度語(yǔ)音搜索以移動(dòng)客戶端為主要平臺(tái), 內(nèi)嵌于百度的其他產(chǎn)品中, 比如掌上百度, 百 度手機(jī)地圖等, 用戶可以在使用這些客戶端產(chǎn)品的同時(shí)體驗(yàn)語(yǔ)音搜索,支持全部主流的手機(jī)操作系統(tǒng)。微軟 CortanaCortana 是 Windows Phone 平臺(tái)下的虛擬語(yǔ)音助手,由游戲光暈中 Cortana 的聲優(yōu) Jen Taylor 配音, Cortana 中文版又名“微軟小娜” 。微軟對(duì) Cortana 的描述為 “你手機(jī)上的私人助手, 為你提供設(shè)置日歷項(xiàng)、建議、進(jìn)程等更多 幫助”,它能夠和你之間進(jìn)行交互,并且盡可能的模擬人的說(shuō)話語(yǔ)氣和思
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙教版2024-2025學(xué)年七下數(shù)學(xué)期末模擬練習(xí)卷-學(xué)生用卷
- 陜西省西安市遠(yuǎn)東第二中學(xué)2024-2025學(xué)年八年級(jí)下學(xué)期5月月考道德與法治試卷(無(wú)答案)
- 工業(yè)廢棄物處理與污染防治
- 工業(yè)旅游視角下的現(xiàn)代廠區(qū)建設(shè)
- 工業(yè)機(jī)器人系統(tǒng)設(shè)計(jì)與應(yīng)用研究
- 工業(yè)機(jī)器人與數(shù)控技術(shù)的融合
- 工業(yè)機(jī)器人技術(shù)及其電機(jī)控制策略
- 工業(yè)污染監(jiān)測(cè)與控制技術(shù)
- 工業(yè)污染防治的新技術(shù)動(dòng)態(tài)
- 工業(yè)污染防治措施與標(biāo)準(zhǔn)
- 招標(biāo)代理服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 行業(yè)周期波動(dòng)中的政策導(dǎo)向-洞察分析
- 2025年山西云時(shí)代技術(shù)有限公司招聘筆試參考題庫(kù)含答案解析
- 河南省駐馬店市2023-2024學(xué)年高二下學(xué)期7月期末考試 英語(yǔ) 含解析
- 2025年中國(guó)中煤能源集團(tuán)限公司招聘10人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 發(fā)展性障礙學(xué)生就業(yè)轉(zhuǎn)銜的家長(zhǎng)支持研究
- 《保密意識(shí)培訓(xùn)》課件
- 2024年6月英語(yǔ)四級(jí)考試真題及答案(第1套)
- 2024中國(guó)糖尿病合并慢性腎臟病臨床管理共識(shí)解讀
- 糖尿病的中醫(yī)科普
- 寺院承包合同范例
評(píng)論
0/150
提交評(píng)論