語音信號識別-文檔資料_第1頁
語音信號識別-文檔資料_第2頁
語音信號識別-文檔資料_第3頁
語音信號識別-文檔資料_第4頁
語音信號識別-文檔資料_第5頁
已閱讀5頁,還剩55頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1 第七章第七章 語音識別語音識別7.1 7.1 語音識別技術的一般概念語音識別技術的一般概念7.2 7.2 語音識別原理和識別系統的組成語音識別原理和識別系統的組成7.3 7.3 動態時間規整動態時間規整7.4 7.4 說話人識別說話人識別2一、語音識別的定義一、語音識別的定義 語音識別是指從語音到文本的轉換,即讓計算語音識別是指從語音到文本的轉換,即讓計算機能夠把人發出的有意義的話音變成書面語言。通機能夠把人發出的有意義的話音變成書面語言。通俗地說就是讓機器能夠聽懂人說的話。俗地說就是讓機器能夠聽懂人說的話。 所謂聽懂,有兩層意思,一是指把用戶所說的所謂聽懂,有兩層意思,一是指把用戶所說的

2、話逐詞逐句轉換成文本;二是指正確理解語音中所話逐詞逐句轉換成文本;二是指正確理解語音中所包含的要求,作出正確的應答。包含的要求,作出正確的應答。 第七章第七章 語音識別語音識別7.1語音識別技術的一般概念語音識別技術的一般概念3二、語音識別的應用二、語音識別的應用 語音識別技術是以語音為研究對象,涉及到生理語音識別技術是以語音為研究對象,涉及到生理學、心理學、語言學、計算機科學以及信號處理等諸學、心理學、語言學、計算機科學以及信號處理等諸多領域。多領域。 隨著語音識別技術的逐漸成熟,語音識別技術開隨著語音識別技術的逐漸成熟,語音識別技術開始得到廣泛的應用,涉及日常生活的各個方面如電信、始得到廣

3、泛的應用,涉及日常生活的各個方面如電信、金融、新聞、公共事業等各個行業,通過采用語音識金融、新聞、公共事業等各個行業,通過采用語音識別技術,可以極大的簡化這些領域的業務流程以及操別技術,可以極大的簡化這些領域的業務流程以及操作;提高系統的應用效率。作;提高系統的應用效率。7.1語音識別技術的一般概念語音識別技術的一般概念4 1.1.語音識別以語音識別以IBMIBM推出的推出的ViaVoiceViaVoice為代表,國內為代表,國內則推出則推出Dutty +Dutty +語音識別系統、天信語音識別系統、語音識別系統、天信語音識別系統、世音通語音識別系統等。世音通語音識別系統等。 2. 2. 數據

4、庫檢索:對龐大的數據進行繁雜的檢索數據庫檢索:對龐大的數據進行繁雜的檢索和查詢,通過使用語音識別技術,將變得輕松、方和查詢,通過使用語音識別技術,將變得輕松、方便。便。 3. 3. 特殊的環境所需的語音命令:用語音發出操特殊的環境所需的語音命令:用語音發出操作指令。作指令。語音識別應用實例語音識別應用實例5 德國西門子公司推出的一種新洗衣機德國西門子公司推出的一種新洗衣機, ,洗衣物洗衣物非常專業,知道什么樣的臟衣物選擇合適洗滌程序非常專業,知道什么樣的臟衣物選擇合適洗滌程序和洗滌劑,而主人只需要口頭命令即可,比如和洗滌劑,而主人只需要口頭命令即可,比如 “半個小時后再洗半個小時后再洗”。 與

5、普通洗衣機的不同之處是安裝了語音識別與普通洗衣機的不同之處是安裝了語音識別芯片,能根據用戶的語音指令確定洗滌程序。芯片,能根據用戶的語音指令確定洗滌程序。 語音識別用于家用電器,語音識別用于家用電器,走入人類未來生活走入人類未來生活61.1.根據識別的詞匯量來分,有:根據識別的詞匯量來分,有:(1 1)大詞匯()大詞匯(10001000個以上的詞匯,如會議系統)個以上的詞匯,如會議系統)(2 2)中詞匯()中詞匯(202010001000個詞匯,如定票系統)個詞匯,如定票系統)(3 3)小詞匯()小詞匯(1 12020個詞匯,如語音電話撥號)個詞匯,如語音電話撥號)2.2.根據講話人的范圍來分

6、,有:根據講話人的范圍來分,有:(1 1)單個特定人)單個特定人(2 2)多講話人(有限的講話人)多講話人(有限的講話人)(3 3)與講話者無關)與講話者無關三、語音識別的類型三、語音識別的類型7四、語音識別的方法四、語音識別的方法1.1.模式匹配法模式匹配法 在訓練階段,用戶將詞匯表中的每一詞依次說一在訓練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫。遍,并且將其特征矢量作為模板存入模板庫。 在識別階段,將輸入語音的特征矢量依次與模板在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作庫中的每個模板進行相似度比較,將相似度最高

7、者作為識別結果輸出。為識別結果輸出。8特征矢量特征矢量LPCLPC倒譜倒譜c(n)c(n)語語文文學學音音wen模板庫模板庫91.1.對自然語言的識別和理解。首先必須將連續的對自然語言的識別和理解。首先必須將連續的講話分解為詞、音素等單位,其次要建立一個理講話分解為詞、音素等單位,其次要建立一個理解語義的規則。解語義的規則。2.2.語音信息量大。語音模式不僅對不同的說話人語音信息量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個說不同,對同一說話人也是不同的,例如,一個說話人在隨意說話和認真說話時的語音信息時不同話人在隨意說話和認真說話時的語音信息時不同的。一個人的說話方

8、式隨著時間變化。的。一個人的說話方式隨著時間變化。五、語音識別的主要問題五、語音識別的主要問題103.3.語音的模糊性。說話者在講話時,不同的詞可能語音的模糊性。說話者在講話時,不同的詞可能聽起來是相似的。這在英語和漢語中常見。聽起來是相似的。這在英語和漢語中常見。4.4.單個字母或詞、字的語音特性受上下文的影響,單個字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調、音量和發音速度等。以致改變了重音、音調、音量和發音速度等。5.5.環境噪聲和干擾對語音識別有嚴重影響,致使識環境噪聲和干擾對語音識別有嚴重影響,致使識別率低。別率低。五、語音識別的主要問題五、語音識別的主要問題111.1

9、.根據識別系統的類型選擇能滿足要求的一種識別根據識別系統的類型選擇能滿足要求的一種識別方法,采用語音分析技術預先分析出這種方法所要方法,采用語音分析技術預先分析出這種方法所要求的語音特征參數,這些語音參數作為標準模式由求的語音特征參數,這些語音參數作為標準模式由計算機存儲起來,形成標準模式庫,稱為計算機存儲起來,形成標準模式庫,稱為模板模板。這。這個過程稱為個過程稱為“學習學習”和和“訓練訓練”。在某些識別系統。在某些識別系統中,還備有專家知識庫,其中存放由語言學家的各中,還備有專家知識庫,其中存放由語言學家的各種知識,如同音字判決規則、語法規則、語義規則種知識,如同音字判決規則、語法規則、語

10、義規則等。等。一、語音識別的步驟一、語音識別的步驟7.2 7.2 語音識別原理和識別系統的組成語音識別原理和識別系統的組成122. 2. 識別:將輸入語音進行處理,提取特征參數,識別:將輸入語音進行處理,提取特征參數,和模式庫中的模板進行比較匹配,作出判決。和模式庫中的模板進行比較匹配,作出判決。預處理預處理語音特征語音特征參數分析參數分析失真測度失真測度計算計算識別決策識別決策標準標準模板模板專家專家知識知識模式匹配模式匹配語音識別的框圖語音識別的框圖13 語音信號的放大、防混疊濾波、自動增益控制、語音信號的放大、防混疊濾波、自動增益控制、模數轉換、消除噪聲、端點檢測。模數轉換、消除噪聲、端

11、點檢測。二、預處理二、預處理 端點檢測:從包含語音的一段信號中確定出語音端點檢測:從包含語音的一段信號中確定出語音的起點和終點。有效的端點檢測不僅能使處理的時的起點和終點。有效的端點檢測不僅能使處理的時間減到最小,而且能排除無聲段的噪聲干擾。實驗間減到最小,而且能排除無聲段的噪聲干擾。實驗表明:端點檢測的正確與否影響到識別率的高低。表明:端點檢測的正確與否影響到識別率的高低。語音端點檢測的方法:短時能量和短時過零率。語音端點檢測的方法:短時能量和短時過零率。7.2 7.2 語音識別原理和識別系統的組成語音識別原理和識別系統的組成14 特征參數和識別方法有關系,是語音識別的關特征參數和識別方法有

12、關系,是語音識別的關鍵之處,選擇的好壞直接影響語音識別的精度。鍵之處,選擇的好壞直接影響語音識別的精度。 語音特征參數包括:短時平均能量、短時過零語音特征參數包括:短時平均能量、短時過零率、頻譜、三個共振峰頻率(率、頻譜、三個共振峰頻率(F1F1、F2F2、F3F3的頻率值、的頻率值、帶寬、幅值)、線性預測系數、帶寬、幅值)、線性預測系數、LPCLPC倒譜和倒譜和MelMel倒譜倒譜等等。三、語音特征參數的提取三、語音特征參數的提取7.2 7.2 語音識別原理和識別系統的組成語音識別原理和識別系統的組成15 將未知語音的特征參數與模板參數逐一進行將未知語音的特征參數與模板參數逐一進行比較與匹配

13、,判決的依據是失真測度最小的準則。比較與匹配,判決的依據是失真測度最小的準則。 語音識別的測度有很多,歐氏距離測度及其變語音識別的測度有很多,歐氏距離測度及其變形、形、線性預測失真測度等。線性預測失真測度等。四、模式匹配四、模式匹配7.2 7.2 語音識別原理和識別系統的組成語音識別原理和識別系統的組成16歐氏距離測度歐氏距離測度K K維特征矢量:維特征矢量: X Xi ixxi1 i1 , x, xi2 i2 , , x, , xiKiK Y Yj jyyj1 j1 , y, yj2 j2 , , y, , yjKjK KiiiyxKYXd122)(1),(均方誤差歐氏距離均方誤差歐氏距離1

14、7 先對系統中的每個字,做一個碼本作為該字先對系統中的每個字,做一個碼本作為該字的參考(標準)模板的參考(標準)模板, ,共有共有M M個字,故共有個字,故共有M M個碼個碼本,組成一個模板庫。本,組成一個模板庫。 識別時,對于任意輸入的語音特征矢量序列識別時,對于任意輸入的語音特征矢量序列X XXX1 1 , X, X2 2 , , X, , XN N ,計算該序列中每一個特,計算該序列中每一個特征矢量對模板庫中的每個碼本的總平均失真量誤征矢量對模板庫中的每個碼本的總平均失真量誤差,找出最小的失真誤差對應的碼本(代表一個差,找出最小的失真誤差對應的碼本(代表一個字),將對應的字輸出作為識別的

15、結果。字),將對應的字輸出作為識別的結果。模式匹配過程模式匹配過程18特征矢量序列特征矢量序列 X XXX1 1 , X, X2 2 , , X, , XN N 模板庫模板庫 Y Y1 1 , Y, Y2 2 , , Y, , YM M特征矢量特征矢量序列形成序列形成任意任意語音語音幀幀X X碼本碼本Y Y1 1Y Y2 2Y YM M計算計算失真誤差失真誤差判決判決輸出結果輸出結果Y Yi i 每一個字做一每一個字做一個碼本,共個碼本,共M M個字個字模板庫模板庫19XX1 1 , X, X2 2 , , X, , XN N 模板庫模板庫語語碼本碼本YY1 1 ,Y,Y2 2 ,Y,YN N

16、 學學碼本碼本音音碼本碼本文文碼本碼本wenwen20 用來存儲各種語言學知識,如漢語聲調變調規則、用來存儲各種語言學知識,如漢語聲調變調規則、音長分布規則、同音字判別規則、構詞規則、語法規音長分布規則、同音字判別規則、構詞規則、語法規則、語義規則等。對于不同的語言有不同的語言學專則、語義規則等。對于不同的語言有不同的語言學專家知識庫。家知識庫。 專家知識庫專家知識庫 判決是語音識別的最后一步,也是系統識別效果判決是語音識別的最后一步,也是系統識別效果的最終表現。根據若干準則及專家知識,判決選出可的最終表現。根據若干準則及專家知識,判決選出可能結果中最好的結果,由識別系統輸出。能結果中最好的結

17、果,由識別系統輸出。21一、動態時間規整的提出一、動態時間規整的提出 語音信號具有很強的隨機性,不同的發音習慣,語音信號具有很強的隨機性,不同的發音習慣,發音時所處的環境不同,心情不同都會導致發音持發音時所處的環境不同,心情不同都會導致發音持續時間長短不一的現象。如單詞最后的聲音帶上一續時間長短不一的現象。如單詞最后的聲音帶上一些拖音,或者帶上一點呼吸音,此時,由于拖音或些拖音,或者帶上一點呼吸音,此時,由于拖音或呼吸音會被誤認為一個音素,造成單詞的端點檢測呼吸音會被誤認為一個音素,造成單詞的端點檢測不準,造成特征參數的變化,從而影響測度估計,不準,造成特征參數的變化,從而影響測度估計,降低識

18、別率,因此在語音識別時,首先有必要對語降低識別率,因此在語音識別時,首先有必要對語音信號進行時間規整。音信號進行時間規整。7.3 7.3 動態時間規整動態時間規整22XX1 1 , X, X2 2 , , X, , XN N 模板庫模板庫語語碼本碼本YY1 1 ,Y,Y2 2 ,Y,YM M 學學碼本碼本音音碼本碼本文文碼本碼本wenwen特征矢量按發音的時間順序提取特征矢量按發音的時間順序提取23二、動態時間規整的定義二、動態時間規整的定義 一次正確的發音應該包含構成該發音的全部音一次正確的發音應該包含構成該發音的全部音素以及正確的音素連接次序。素以及正確的音素連接次序。 其中各音素持續時間

19、的長短與音素本身以及講其中各音素持續時間的長短與音素本身以及講話人的狀況有關。為了提高識別率,克服發同一音話人的狀況有關。為了提高識別率,克服發同一音而發音時間長短的不同,采用對輸入語音信號進行而發音時間長短的不同,采用對輸入語音信號進行伸長或縮短直到與標準模式的長度一致。這個過程伸長或縮短直到與標準模式的長度一致。這個過程稱為時間規整。稱為時間規整。24三、動態時間規整的原理描述三、動態時間規整的原理描述 6060年代由日本學者提出,算法的思想是把未年代由日本學者提出,算法的思想是把未知量伸長或縮短知量伸長或縮短( (壓擴壓擴) ),直到與參考模板的長度一,直到與參考模板的長度一致,在這一過

20、程中,未知單詞的時間軸會產生扭曲致,在這一過程中,未知單詞的時間軸會產生扭曲或彎折,以便其特征量與標準模式對應。或彎折,以便其特征量與標準模式對應。 25 DTW DTW 是把時間規整和距離測度計算結合起來。測試語音參是把時間規整和距離測度計算結合起來。測試語音參數共有數共有I I幀矢量,而參考模板共有幀矢量,而參考模板共有J J幀矢量,幀矢量,I I和和J J不等,尋找一不等,尋找一個時間規整函數個時間規整函數j=w(i)j=w(i),它將測試矢量的時間軸,它將測試矢量的時間軸i i非線性地映非線性地映射到模板的時間軸射到模板的時間軸j j上,并使該函數上,并使該函數w(i)w(i)滿足:滿

21、足:原理描述原理描述IiiwiwRiTdD1)()(),(min第第i i幀測試矢量幀測試矢量T(i)T(i)和第和第j j幀模板矢量幀模板矢量R(j)R(j)之間的距離測度之間的距離測度D最優時間規整情況下所有矢量幀間的距離,也稱為代價函數最優時間規整情況下所有矢量幀間的距離,也稱為代價函數pkjijikckcccdiwRiTd12)()(),()(),(計算兩倒譜矢量幀計算兩倒譜矢量幀(i(i和和j) j) 間的歐氏距離,兩矢量間的歐氏距離,兩矢量幀中分別具有幀中分別具有p p個倒譜參數。個倒譜參數。26A AB B j ji ij ji i時間規整函數時間規整函數j=w(i)j=w(i)

22、 為了使為了使T T(測試)的第(測試)的第i i個樣本與個樣本與R R(參考)的(參考)的第第j j個樣本對正,其對應的點不在直線對角線上,個樣本對正,其對應的點不在直線對角線上,得到一條彎曲的曲線得到一條彎曲的曲線j=w(i) 。j=w(i)j=w(i)稱為規整函數。稱為規整函數。27時間規整的依據時間規整的依據設設 T=aT=a1 1 , a, a2 2 , , a, , ai i , , a , , aI I i=1 i=1I I R=b R=b1 1 , b, b2 2 , , b, , bj j , , b , , bJ J j=1 j=1J J IJ IJ 時間規整要解決的問題是

23、使元素時間規整要解決的問題是使元素a a和元素和元素b b之間匹之間匹配,使每對匹配樣本之間的差別最小配,使每對匹配樣本之間的差別最小, ,達到歐氏距離達到歐氏距離最小。最小。28 時間規整就是按照兩模式之間的所有矢量幀間的時間規整就是按照兩模式之間的所有矢量幀間的距離距離D D最小最小( (代價函數最小)的原則,不斷計算兩模代價函數最小)的原則,不斷計算兩模式間的距離,以尋找最優的路徑式間的距離,以尋找最優的路徑, ,一般應使規整函數一般應使規整函數w(i)w(i)滿足下列條件:規整函數滿足下列條件:規整函數w(i)w(i)在在A A和和B B的端點必的端點必須匹配,有:須匹配,有: 起點:

24、起點:i(k)=j(k)=1 i(k)=j(k)=1 終點:終點:i(k)=I j(k)=Ji(k)=I j(k)=J 為了防止漫無目的從為了防止漫無目的從(1,1)(1,1)搜索到搜索到(I,J)(I,J),因此對,因此對兩點之間路徑的斜率予以規定,最大為兩點之間路徑的斜率予以規定,最大為2 2,最小為,最小為1/21/2。時間規整過程時間規整過程29ijJI11(1,1)(1,1)(I,J)(I,J)j-J=(i-I)/2j-J=(i-I)/2j-J=2(i-I)j-J=2(i-I)j=i/2j=i/2j=2ij=2i全局最優全局最優動態時間規正法動態時間規正法(DTW)(DTW)的具體解

25、法的具體解法-行進方向行進方向c ck k=(i,j)=(i,j)(i,j-1)(i,j-1)(i-1,j-1)(i-1,j-1)(i-1,j)(i-1,j)(i-2,j-1)(i-2,j-1)(i(i-1,j-2)-1,j-2)i ij j22211312 21 12 22 21 1行進方向的另一種解釋行進方向的另一種解釋d(T(i),R(j)d(T(i),R(j)d(T(i),R(j-1)d(T(i),R(j-1)g(i-1,j-2)g(i-1,j-2)i ij j21g(i,j)g(i,j)(),()1(),(2)2, 1(),(jRiTdjRiTdjigjigg(i-1,j-1)g(i

26、-1,j-1)i ij j2d(T(i),R(j)d(T(i),R(j)g(i,j)g(i,j)(),(2) 1, 1(),(jRiTdjigjigd(T(i),R(j)d(T(i),R(j)d(T(i-1),R(j)d(T(i-1),R(j)g(i-2,j-1)g(i-2,j-1)i ij j21g(i,j)g(i,j)(),()(),1(2) 1, 2(),(jRiTdjRiTdjigjig35),(), 1(2)1,2(),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig 由規定的行進方向可知在任意一點(由規定的行進方向可知在

27、任意一點(i,ji,j), ,其其g(T(i),R(j)=g(i,j)(g(T(i),R(j)=g(i,j)(代價函數值代價函數值) )可由它前面的點可由它前面的點g(i-1,j-2g(i-1,j-2)或)或g(i-1,j-1)g(i-1,j-1)或或g(i-2,j-1)g(i-2,j-1)按下式計算:按下式計算:最佳匹配失真測度最佳匹配失真測度/距離距離 D(D(T T, ,R R)= g(I,J)/(I+J)= g(I,J)/(I+J) ),()(),(jidjRiTd36 每一個點的總代價函數是前一點總代價函數和每一個點的總代價函數是前一點總代價函數和到達該點的代價函數之和的最小值。到達

28、該點的代價函數之和的最小值。 總代價函數總代價函數 時間規整,它把時間規整,它把1 1個個k k個階段的決策,化為單個個階段的決策,化為單個k k個階段的決策過程,這種決策過程稱為動態規劃計個階段的決策過程,這種決策過程稱為動態規劃計劃。劃。37動態時間規正法動態時間規正法(DTW)的計算實例的計算實例1 設待識語音模式為設待識語音模式為T T=acc=acc, 參考模式為參考模式為R R=cbac=cbac, 若若a a、b b 、 c c之間的距離分別為之間的距離分別為 d(a,b)=d(b,a)=2d(a,b)=d(b,a)=2、d(a,c)=d(c,a)=3d(a,c)=d(c,a)=

29、3、 d(b,c)=d(c,b)=1d(b,c)=d(c,b)=1、d(a,a)=d(b,b)=d(c,c)=0d(a,a)=d(b,b)=d(c,c)=0 試用試用DTWDTW法,在點陣圖上畫出最佳匹配路徑,法,在點陣圖上畫出最佳匹配路徑,并計算出最佳匹配距離并計算出最佳匹配距離D(D(T T, ,R R) )。2 2accacbcR3 31 1ij1 12 23 34 4(c,c)(a,c)g(3,4)g(1,1)=d(a,c)=3),(), 1(2)1,2(),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig標號標號標號標號2

30、 2accaccbR3 31 1ij1 12 23 34 4(c,c)(a,c)3 , 1 (),(),(2)3 , 1 ()4(),3()4(),2(2)3 , 1 ()3 , 2(),(2)3 , 2()4(),3(2)3 , 2(32)2 , 2(),(),(2)2 , 2()4(),3()3(),3(2)2 , 2(min)4 , 3(gccdccdgRTdRTdggccdgRTdggccdacdgRTdRTdggg(2,2)g(2,3)g(1,3)g(3,4)2222 2accaccbR3 31 1ij1 12 23 34 4(c,c)(a,c)g(1,3),(), 1(2)1,2(

31、),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig523),(),(),()3(),1 ()2(),1 ()1 (),1 ()3 , 1 (aadbadcadRTdRTdRTdg2 2accaccbR3 31 1ij1 12 23 34 4(c,c)(a,c)g(2,2),(), 1(2)1,2(),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig5123),(2),()2(),2(2) 1 , 1 ()2 , 2(bcdcadRTdgg2 2accaccbR3 31

32、1ij1 12 23 34 4(c,c)(a,c)g(2,3),(), 1(2)1,2(),(2)1, 1(),()1,(2)2, 1(min),(jidjidjigjidjigjidjidjigjig11),(2),(),()3(),2(2)2, 1(8),(),(2),()3(),2()2(),2(2)1 , 1(min)3 ,2(acdbadcadRTdgacdbcdcaddTdRTdggRg(1,2)5)3 , 1 (8)3 , 2(11656)2 , 2(min)4 , 3(gggg2 2accaccbR3 31 1ij1 12 23 34 4(a,c)g(1,3)g(3,4)44j

33、時間規整時間規整函數函數j=w(i)j=w(i)i2 23 31 11 12 23 34 4D(T,R)= g(I,J)/(I+J)=g(3,4)/(3+4)=5/7T(i)=1 2 3 41234124R(j)=1,2,4(4,4) g(4,3)(1,1) g(1,1)動態時間規正法動態時間規正法(DTW)的計算實例的計算實例222) 1 , 3 () 4 , 4 () 2 , 4 (2) 1 , 3 () 2 , 3 () 4 , 4 (2) 2 , 3 (12) 2 , 2 () 4 , 4 () 4 , 3 (2) 2 , 2 (min) 3 , 4 (gddggdggddggg(3,

34、1)g(3,2)g(2,2)pkjijikckcccdiwRiTd12)()(),()(),(T(i)1234124R(j)(4,4) g(4,3)(1,1) g(1,1)g(2,2)0)2 , 2(2) 1 , 1 ()2 , 2(dggT(i)1234124R(j)(4,4)g(4,3)(1,1) g(1,1)g(3,2)3)2 , 3(2) 1 , 2() 1 , 1 ()2 , 3(2) 1 , 2(1)2 , 3()2 , 2(2) 1 , 1 (min)2 , 3(ddddgddggT(i)1234124R(j)(4,4) g(4,3)(1,1) g(1,1)g(3,1)321)

35、1 , 3() 1 , 2() 1 , 1 () 1 , 3(dddg74322) 1 , 3(1)2 , 3(22012)2 , 2(min)3 , 4(ggggT(i)1234124R(j)50 1 2 3 43 2 1i ij j時間規整函數時間規整函數j=w(i)j=w(i)D(T,R)= g(I,J)/(I+J)=g(4,3)/(4+3)=1/751四、動態時間規整的應用四、動態時間規整的應用 DTWDTW算法簡潔,運算算法簡潔,運算量小,適合小型的孤立量小,適合小型的孤立詞的識別。例如語音計詞的識別。例如語音計數器,語音呼叫電話等。數器,語音呼叫電話等。開始開始語音采樣和量化語音采

36、樣和量化端點檢測端點檢測LPCLPC倒譜分析倒譜分析DTWDTW的識別算法的識別算法 語音模板語音模板識別結果輸出識別結果輸出 52 語音識別系統的任務是準確地識別出全部話語或語音識別系統的任務是準確地識別出全部話語或者理解所說的話語。者理解所說的話語。 說話人識別系統的任務是確認說話人(即證實說說話人識別系統的任務是確認說話人(即證實說話的人是否是所要求的那個人)或者從某個已知的人話的人是否是所要求的那個人)或者從某個已知的人群集合中辨認出那個說話人。因此分為說話人確認和群集合中辨認出那個說話人。因此分為說話人確認和說話人辨認。主要用于身份的驗證。說話人辨認。主要用于身份的驗證。語音識別和說話人識別的關系語音識別和說話人識別的關系7.4 7.4 說話人識別說話人識別53 說話人識別分為說話人確認和說話人辨認說話人識別分為說話人確認和說話人辨認。一、定義一、定義誰誰的的講講話話xA1A2A3AN記錄講話者記錄講話者說話人辨認說話人辨認automatic speaker automatic speaker identificationidentification是是A1的的講講話話嗎?嗎?xA1說話人確認說話人確認automatic automatic speaker verificationspeaker verification5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論