基于改進的時間動態規整算法的多特征組合的說話人辨認方法研究_第1頁
基于改進的時間動態規整算法的多特征組合的說話人辨認方法研究_第2頁
基于改進的時間動態規整算法的多特征組合的說話人辨認方法研究_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于改進的時間動態規整算法的多特征組合的說話人辨認方法研究         08-05-05 16:43:00     作者:謝迎春1 劉建平2    編輯:studa0714摘  要  通過分析當今說話人識別系統中常用的語音特征和基本的說話人識別方法,本文采用多門限多判決的動態時間規整算法作為識別方法,并提取出美爾頻率倒譜及其差分、線性預測倒譜及其差分、基音周期、短時譜的臨界帶特征矢量和子帶能量倒譜等多種語音特征進

2、行互相組合,找出了相應于該識別方法的最優特征組合。     關鍵詞  說話人識別;動態時間規整;特征組合 1  引言    說話人識別是語音識別的一個分支,在公安偵察、聲控系統、醫療診斷、電子金融業務等方面有著廣泛的應用前景。它和語音識別的區別在于,它并不注意語音信號中的語義內容,而是希望從語音信號中提取出個人的信息特征。從這點上說,說話人識別是企求挖掘出包含在語音信號中的個性因素。而語音識別是企求從不同人的語音信號中尋找共同因素。    通過分析前人對說話人識別的工作總結,

3、為了進一步提高識別率,本文采用了多門限多判決的改進的動態規整(dynamic time warping ,簡稱DTW)方法進行說話人辨認,在增加少量運算代價的情況下,新方法改善了辨認系統的性能。    說話人識別是企求挖掘出包含在語音信號中的個性特征而后進行識別。一般說來,單一參量很難使系統性能可靠,因為它不能充分描繪說話人的個體特征,其中會包含語義信息,或只是說話人特征的某一方面,所以在實際應用中往往要采用不同參量的集合。因此,本文將提取的多種特征進行不同的組合,試圖尋找出相應于上述識別方法的具有較高識別率的語音特征組合。2  語音特征的提取 

4、;   在提取特征之前,所采集的語音信號必須經過預處理,一般包括預加重、加窗和分幀。為減少計算量提高計算精度,在預處理后要進行端點檢測。本文利用語音短時能頻值5作為端點檢測的參數,這種方法相當于在傳統方法中,以背景噪聲的短時能頻值為基準對絕對門限值作調整,結果表明能頻值端點檢測的方法適應環境的能力比較強,準確率較好5。     本文利用了“短時分析技術”1提取了以下幾種常用特征:16維的美爾倒譜參數MFCC及其差分系數MFCC、12維的線性預測倒譜參數(LPCC)及其差分系數LPCC、12維的美爾線性預測差分倒譜系數1(LPCMCC)、基音周期

5、P及其差分P、18維的短時譜的臨界帶特征矢量1(本文用GL表示)和子帶能量倒譜6(Sub-band MFCC,本文用SBC表示)系數及其差分(SBC)。其中,本文是采用自相關方法提取的基音周期,并運用了二次平滑算法1去除了基音軌跡中的“野點”。在提取子帶能量倒譜時,本文是將語音信號按照Mel刻度在樹結構中的多級子帶分解為11個子帶信號進行計算的。3  說話人識別方法3.1 動態時間規整算法    動態時間規整匹配是基于動態規劃的思想,解決了發音長短不一的匹配問題,把時間規整和距離測度計算結合起來的一種非線性規正技術,是語音識別中出現較早、較為經典的一種算

6、法。設測試語音參數共有 I 幀矢量,則測試語音模板的特征矢量序列為X=(X1 、X2 、XI),參考語音參數共有 J 幀,則參考模板的特征矢量序列為Y(Y1 、Y2 、YJ )。且 IJ,則動態時間規整就是要找到一個時間規整函數 j=w(i) ,將測試矢量的時間軸 i 非線性地映射到參考模板的時間軸 j上,并使該函數 w 滿足下式:                      &

7、#160;                  (3.1)    其中, 是第 i 幀測試矢量Xi 和第 j 幀模板矢量 Yj 之間的距離測度,一般這個距離測度采用歐氏距離的平方,如(3.2)式所示。D則是處于最優時間規整情況下兩矢量的距離。              &

8、#160;                       (3.2)    其中 Xi=( xi1, xi2,xi3 ,xiN), Yj =( yj1,yj2 ,yj3 ,yjN ),N是特征矢量維數。    實際應用中,DTW一般采用動態規劃技術(DP)來實現1。動態規劃是一種最優化算法,其原理如圖1所示。將測試模板的

9、各幀 i=1,2,.,I 作為二維直角坐標系的橫軸,參考模板的各幀號j=1,2,.,J 作為縱軸。通常規整函數w(i) 被限制在一個平行四邊形內,如圖1,它的一條邊的斜率為2,另一條邊的斜率為1/2 。規整函數的起始點為 (1,1),終止點為(I,J) ,即W(1) =1,W(I)=J 。 的斜率為0、1或2;否則就為1或2。這是一種簡單的局部路徑限制。 求最佳路徑問題可以歸結為滿足局部路徑約束條件,使得沿路徑的累積距離最小。    搜索該路徑的方法:從(1,1) 點出發,可以展開若干條滿足局部路徑約束條件的路徑。假設可以計算每條路徑達到 (I,J)點時的總的累積

10、距離,具有最小累積距離者即為最佳路徑。    這個最小累積距離即為測試語音模板與參考模板語音之間的距離。則與測試模板距離最小的參考模板對應的說話人即判為識別結果。3.2  改進的多門限多判決的動態時間規整方法    很顯然,在模板庫中總的詞條數目不變時,增加模板的數量會提高識別率,但是模板數目的增加也會帶來系統響應速度變慢的問題。因此,本文在說話人辨認系統中采取了多門限多次判決方法2,系統參考模板庫中共存有四套模板。輸入語音構成的測試模板先跟第一套模板進行匹配,求出與每個模板的最佳匹配距離,距離最小者作為候選輸出。設定一個拒

11、絕門限,若最小匹配距離也大于該門限,則表明該輸入語音不在語音庫范圍內,停止下一步匹配,結果判該輸入語音對應的說話人為庫外人員。另外再設一個接受門限,若匹配距離小于該門限,則候選輸出為正式的輸出;否則,再進行第二輪匹配,即與第二套模板進行匹配.這樣一直到第四套模板,如果此時還沒有得到理想的輸出,則可綜合評價四次匹配結果,得出最后的輸出結果。此外,為了減少多輪匹配的計算量,定義一個差別閾值2,在每輪匹配結束后,計算最小匹配距離與其他模板匹配距離的差別,若所有的差別均大于差別閾值,則表明輸入模板與候選輸出模板較其他模板有很大的相似性,可以作為正式的輸出。若仍有模板的差別小于差別閾值,則表明這些模板與候選輸出模板之間還可能存在混淆,需待下一輪匹配進行澄清。因此在下一輪匹配時,只需計算輸入語音與這些模板之間的匹配距離,而將其他模板排除在外。    本文的拒絕門限設定為在兩個參考模板中對候選輸出者的語音進行模板匹配得到的累積距離dr 的倍數,即 (1 )為拒絕門限。接受門限則設定為: ,其中 0<<1, 是根據使用不同的特征矢量分別設定的。    由于人的語音會隨著時間的變化而變化,而且會受到健康和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論