




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、生物特征認證技術學院:計算機學院專業:信號與信息處理班級:13碩信息所班學號:13120330姓名:李敏說話人識別研究摘要:說話人識別是語音信號處理中的重要組成部分,是當前的研究熱點之一。本文詳細介紹了說話人識別的基本原理,從特征提取、模型訓練和分類等幾個方面近年來的主要研究情況及進行綜述和評價,并在此基礎上探討其研究難點和發展前景。關鍵詞:說話人識別;特征提取;模型訓練;分類1.引言 說話人識別作為生物認證技術的一種,是根據語音波形中反映說話人生理和行為特征的語音參數,自動鑒別說話人身份的一項技術。為此,需要從各個說話人的發音中找出人之間的個性差異,它涉及到說話人發音器官上的個性差異、發音通
2、道之間的個性差異、發音習慣之間的個性差異等不同級別上的差異。說話人識別是交叉運用心理學、生理學、語音信號處理、模式識別、統計學習理論和人工智能的綜合性研究課題。 說話人識別根據實現的任務不同, 可分為說話人辨認(Speaker Identification和說人確認(Speaker Verification)兩種類型。說話人識別根據系統對待識別語音內容的不同,又分為與文本有關(text-dependent)和與文本無關(text-independent)兩種方式。2.說話人識別的基本理論與前期處理2.1語音產生模型 語音信號可以看成是激勵信號UGn經過一個線性系統HZ而產生的輸出。其中,聲道模
3、型HZ為離散時域的聲道傳輸函數,通常可以用全極點函數來近似。不同的說話人其聲道形狀是不同的,因此具有不同的聲道模型。HZ的表達式為:HZ=1AZ=11-i=1paiZi式中p為全極點濾波器的階數,aii=1,2,p為濾波器的系數。P值越大,則模型的傳輸函數和實際聲道的傳輸函數的吻合程度就越高。當然p也不能取得太大,一般情況下p取8到12。2.2 說話人識別基本原理 圖 1 給出了說話人識別系統框圖,和語音識別系統一樣,建立和應用這一系統可以分為兩個階段,即訓練階段和識別階段。在訓練階段,系統的每個使用者說出若干訓練語句,系統據此建立每個使用者的模板或模型參量參考集。而在識別階段,待識別說話人語
4、音中導出的參量要與訓練中的參考參量或模板加以比較,并且根據一定的相似性準則形成判斷。2.3 預處理通常,輸入的語音信號都要進行預處理,其過程的好壞也在一定程度上對系統的識別效果產生影響。一般的預處理過程為:(1)采樣量化:語音信號通常以 8kHz或更高的采樣速率數字化,每個采樣至少用8比特表示;(2)預加重:由于語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,在高頻端大約在800Hz以上按6dB/倍頻程跌落,為此要進行預加重。預加重的目的是將更為有用的高頻部分頻譜進行提升,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求取頻譜,以便于進行頻譜分析或聲道參數分析。聲音經過
5、8kHz 或更高的采樣速率的采樣后轉成數字語音信號,接著通過一個一階高通濾波器來做預加重處理以突顯高頻部分。其傳遞函數為:HZ=1-aZ-1,一般a的值取0.95左右;(3)端點檢測:端點檢測就是對輸入語音信號進行判斷,從背景噪音中準確找出語音的起始點和終止點。有效的端點檢測不能消除無聲段的噪音。但可以使處理語音信號的時間減到最小。目前的端點檢測技術大都是基于語音信號的時域特征來進行的,一般常采用兩種時域特征:短時能量和短時過零率,通過設定它們的門限值進行檢測;(4)分幀:由于語音信號的準平穩特性,使得其只有在短時段上才可被視為是一個平穩過程,所以絕大部分的說話人識別系統都是建立在短時頻譜分析
6、的基礎之上,把一定長度的語音分為許多幀來分析。這樣做之后語音信號可以被認為是平穩的。系統也就可以使用對平穩過程的分析方法對語音信號進行分析。由此可見語音信號需要被劃分為一個一個的短時段。每一個時段稱為一幀,每一幀的長度大概為10-30ms。現在所使用的分幀方法為了使幀與幀輪之間平滑過渡并保持其的連貫性,一般采用交疊分段的方法,即每一幀的幀尾與下一幀的幀頭是重疊的。(5)加窗:針對每一個音框乘上漢明窗以消除音框兩端的不連續性,避免分析時受到前后音框的影響;(6) 最后,將音框通過低通濾波器,可去除異常高起的噪聲。3.特征提取 經過預處理后,幾秒鐘的語音就會產生很大的數據量。提取說話人特征的過程,
7、實際上就是去除原來語音中的冗余信息,減小數據量的過程。從語音信號中提取的說話人特征參數應滿足以下準則:對局外變量(例如說話人的健康狀況和情緒,系統的傳輸特性等)不敏感;能夠長期地保持穩定;可以經常表現出來;易于對之進行測量;與其它特征不相關。根據參數的穩定性,可把說話人特征參數大致分為兩類:一類是反映說話人生理結構的固有特征(例如聲道結構等),這類特征主要表現在語音的頻譜結構上,包含了反映聲道共振的頻譜包絡特征信息和反映聲帶震動等音源特性的頻譜細節構造特征信息,具有代表性的特征參數有基音和共振鋒。這類特征不易被模仿,但容易受健康狀況的影響。另一類是反映聲道運動的動態特征,即發音方式、發音習慣等
8、。主要表現在語音頻譜結構隨時間的變化上,包含了特征參數的動態特性,這類特征相對穩定卻比較容易模仿,代表性的特征參數是倒譜系數。 說話人識別研究中多采用的特征參數主要有:基音周期、明亮度、過零率、線性預測系數(Linear Predictive Coefficients,簡稱LPC)、線性預測倒譜系數(Linear Predictive Cepstral Coefficients,簡稱 LPCC)、Mel頻率倒譜系數(Mel-frequency Cepstrum Coefficients,簡稱MFCC)、倒譜特征,等等。3.1 線性預測倒譜系數(LPCC)線性預測倒譜系數是一種比較重要的特征參數
9、,它比較徹底地去除了語音產生過程中的激勵信息,能較好地描述語音信號的共振峰特性。在實際計算中,LPCC 不是由信號直接得到的,而是由LPC求得。LPCC 倒譜系數與線性預測系數的關系為:3.2 Mel 頻率倒譜系數(MFCC)Mel頻率倒譜系數(MFCC)的分析與傳統的線性倒譜系數(LPCC)不同,它的分析是著眼于人耳的聽覺機理,因為人類在對1000Hz以下的聲音頻率范圍的感知遵循近似的線性關系;對1000Hz以上的聲音頻率范圍的感知不遵循線性關系,而是遵循在對數頻率坐標上的近似線性關系,所以Mel 倒譜系數獲得了較高的識別率和較好的魯棒性。在實現上,Mel倒譜系數是將語音頻率劃分成一系列三角
10、形的濾波器序列,這組濾波器在頻率的Mel坐標上是等待寬的。Mel頻率表達了一種常用的從語音頻率到“感知頻率”的對應關系,更符合人耳的聽覺特性。其表達式如下: 求取MFCC的具體過程如下:(1) 對已經經過預處理的語音向量分別進行離散傅立葉變換(DFT)。(2) 將得到的離散頻譜用序列三角濾波器進行濾波處理,得到一組系數。(3) 利用離散余弦變換(DCT)將濾波器輸出變換到倒譜域。離散余弦變換的公式如下:3.3 其他一些特征3.3.1 基音周期在人的發音模型中,產生濁音的周期激勵脈沖的周期稱為基音周期(Pitch)。只有濁音才有基音周期,清音沒有基音周期。基音周期檢測方法大體上可以分為三大類:時
11、域方法、頻域方法和綜合利用信號的時域、頻域特性的方法。時域方法直接利用語音信號的采樣點,計算信號的波峰、波谷和過零率等。其特點是原理簡單,計算量小。典型的方法是Gold 和Rabiner 提出的并行處理(PPROC)方法。頻域的方法主要是計算信號的自相關函數、功率譜和最大似然函數等,其精度要高于時域的方法。典型的方法有中央消波自相關法(AUTOC)、平均幅度差分函數(AMDF)法和倒譜法(CEP)等。自相關法的原理是語音的短時自相關函數在基音周期的整數倍點上有很大的峰值,只要找到最大峰值點的位置,便能估計出基音周期。3.3.2 倒譜特征圖2 倒譜的計算過程語音信號是激勵信號源與聲道響應相卷積的
12、結果,而“倒譜特征”則是利用了對語音信號作適當的同態濾波可以將激勵信號與聲道信號加以分離的原理。一幀語音信號的倒譜c(n)的計算過程如圖2 所示。倒譜中維數較低的分量對應于語音信號的聲道分量,倒譜中維數較高的分量對應于語音信號的音源激勵分量。因此,利用語音信號倒譜可以將它們分離,彼此基本上互不干擾,并可以避免聲道分量受到有隨機變化的音源激勵分量的干擾。3.3.3 短時能量與短時平均幅度信號x(n)的短時能量定義為:w(n)是窗函數,一般用矩形窗或漢明窗。短時能量代表的是一個音框的語音信號的能量,可以反映語音信號隨時間的幅度變化。語音信號的短時平均幅度定義為:用信號絕對值來代替平方和。3.3.4
13、 短時平均過零率信號x(n)的短時平均過零率定義為:它反映了一個音框語音信號中的過零情況,是信號頻率量的一個簡單量度。4.說話人模型對于說話人識別系統,特征被提取出來以后,需要用識別模型為說話人建模,并對特征進行分類,以確定屬于哪一個說話人。所謂的識別模型,是指用什么模型來描述說話人的語音特征在特征空間的分布。目前常用的模型大體上可以分為參數模型,非參數模型,人工神經網絡模型(Artificial Neural Network,簡稱ANN)以及支撐向量機(Support Vector Machine,簡稱SVM)。參數模型是指采用某種特定的概率密度函數來描述說話人的語音特征在特征空間的分布情況
14、,并以該概率密度函數的一組參數來作為說話人的模型。典型的參數模型包括高斯混合模型(Gaussian Mixture Model,簡稱GMM)和隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)。而非參數模型是指說話人模型是由語音特征經過某種運算直接得來。典型的非參數模型是模板匹配方法和矢量量化模型(Vector Quantization Model,簡稱VQ)。下面分別簡要介紹這幾種分類模型。4.1 高斯混合模型(GMM)GMM 是M個成員的高斯概率密度的加權和,可以用下式表示:這里是D 維隨機向量;是每個成員的高斯概率密度函數;是混合權值。完整的GMM 可表示為:。每個成員
15、密度函數是一個D維變量的高斯分布函數,形式如下: 對于一個長度為T 的測試語音時間序列,它的GMM 似然概率可以寫作:識別時運用貝葉斯定理,在N 個未知話者的模型中,得到的似然概率最大的模型對應的話者即為識別結果:4.2 隱含馬爾可夫模型(HMM)該類方法給定隨機模型,然后通過計算產生一個觀察 (來自某說話人的矢量集中的一個矢量)的似然概率。隨機模型為從說話人訓練話音得到的特征矢量估計出的概率密度函數。每個說話人訓練出一個隨機模型。給定隨機模型 后,各說話人產生觀察 的概率即被確定。當獲得由某測試人產生的觀察集時,則可計算出各個隨機模型產生的概率值 ,表示該測試語音屬于各已知說話人的概率值,從
16、而做出判決。HMM 應用到說話人識別系統時經常會遇到的三大基本問題:(1)若有一個HMM 系統,對于給定的觀察序列O,如何調整模型 = (, A, B)中的各要素,使概率取最大值;(2)已知一個HMM 系統的三項特征參數,給定觀察序列O ,如何計算概率(3)已知一個HMM系統的三項特征參數,若得到了該系統產生的觀察序列O,如何確定一個合理的狀態序列S ,使之能最佳地產生觀察序列O。上面三個問題的解決方案即為著名的HMM 三大基本算法:前向后向算法、Viterbi 算法和Baum-Welch 算法。4.3 模板匹配法模板匹配方法利用語音信號某些特征的長時間均值來辨認說話人,這一均值也稱為統計平均
17、。使用模板匹配方法就是對待識別語音計算平均值,并與已經儲存的每一說話人的訓練平均值進行比較。對文本無關的說話人辨認,理想的情況是應用數秒或數分鐘的訓練語音,以保證說話人的模型是由各種語音的平均特征產生,而不是由某一特殊語音的平均特征產生,待識別的語音則與訓練模板所使用的平均特征間的距離進行比較。在模板匹配方法中可使用多種距離尺度,歐式距離和馬式距離是經常使用的兩種。使用特征統計平均的識別結果通常是次優的,這種方法對信號或背景噪聲的變化特別敏感。上述兩種變化可改變說話人的特征,導致均值的漂移。4.4 矢量量化模型(VQ)4.4.1 k-means 分群法k-means 分群法屬于分割式分群法的一
18、種,給定預分的叢聚數或稱為碼本向量數后反復修正,盡量減小每個叢聚中,每一點與叢聚中心的距離平方差。假設每位說話人的特征參數向量預用k 個碼本向量代表,則k-means 算法可概述如下:(1)初始值:任意產生k 個值當作碼本向量;(2)搜尋最近鄰居:對每一個特征向量點x,來找尋與之最接近的群中心,并將x 加入該叢聚;(3)重新計算各群的碼本向量,更新碼本向量;(4)繼續重復(2)和(3)直到每一資料點和碼本向量的平均距離小于一個門限值,則最后所得的一組碼本向量即代表一位說話人的參考碼本。4.4.2 學習向量量化法(LVQ)學習向量量化法的訓練目的主要是微調碼本中的碼本向量,來減少一些分錯的向量。
19、其最簡單學習向量量化方法,稱之為LVQ1 算法,訓練步驟如下:(1)先使用分群法來找出每位語者的碼本向量,當作初始值;(2)任意地挑選一個訓練向量x ,并知其為語者p 所屬,則將x標為x p;接著找出距離向量x最近的碼本向量c,并知其為語者q所屬,將c標為cq;(3)若p 和q屬于同一位語者,則將碼本向量cq向的方向拉近,否則,將碼本向量cq向cq的反方向推遠;(4)若已達到要求,則LVQ1 訓練過程結束,否則,回到(2)繼續進行微調碼本向量。4.5 K-近鄰分類法(K-NN)假設,目前有一測試語句,想要在已知的多個說話人中找出究竟是哪一位說話人所發出的聲音,可以采用最簡單的k-NN 分類法,
20、就是令k 為1 的NN 分類法。其主要步驟如下:(1)模型訓練:首先收集N 位說話人的訓練語句,接著經過特征參數提取后,得到許多維度為D 的特征參數向量,再為每個特征向量標上所屬的說話人的代號標簽,此時每個訓練特征向量均有D1 維,最后將同樣卷標的特征向量視為同一群,此即為一位說話人模型的參考數據;(2)分類識別:將一段測試語句,同樣經由特征參數提取得到一連串維度為D的測試特征向量,接著任取一個測試的特征向量當作輸入向量,來計算它和所有說話人的訓練特征向量之間的距離,然后找出兩者之間最小的距離(即最近的鄰居)是屬于哪一個說話人模型的參考數據。4.6 神經網絡模型人工神經網絡可在一定程度上模仿人
21、腦的功能,它為說話人識別提供了一個新的途徑,說話人識別使用過的神經網絡類型較多,前向神經網絡以其結構簡單、分類性能較好在說話人識別中獲得了廣泛的使用。多層前向神經網絡是映射型神經網絡,可完成從說話人特征空間向說話人集合的映射。說話人識別使用的前向神經網絡多為BP 網絡和RBF 網絡,而基于逐級判決思想,將單個神經網絡進行組合而成的級聯神經網絡也己應用于說話人識別。目前,使用神經網絡進行說話人識別所面臨的問題是,如果使用一個網絡作為分類器,當待識別的人群( N )改變時,網絡的結構(至少輸出神經元個數)將隨之改變,需要重新對網絡進行訓練。再者,當N 增大時,神經網絡的訓練時間以指數增大,理論上當N 無限增大時,將無法完成神經網絡的訓練。解決這一問題的方法是將單個大網絡化成許多完成部分功能的子網絡,再將各個子網絡進行組合來完成大網絡的功能。Rudasi L 等人和Kevin R F等人已用BP 網絡分別嘗試了說話人識別的兩分網絡方法和神經樹網絡方法。4.7 支撐向量機(SVM)支撐向量機是一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 手術切痣后期護理常規
- 個人報稅流程規范
- 鐵皮保溫施工培訓
- 家具設計經典案例
- 2025年鐵路貨物運輸服務項目申請報告模板
- 2025年金融服務項目立項申請報告
- 2025年河北中煙工業有限責任公司博士研究生招聘考試筆試試題(含答案)
- 2025年中央和國家機關工委所屬事業單位招聘工作人員4人筆試歷年典型考題及考點剖析附帶答案詳解
- 徜徉生字教學課件
- 奶油蛋糕教學課件制作
- GB/T 45719-2025半導體器件金屬氧化物半導體(MOS)晶體管的熱載流子試驗
- 寶媽日常心理護理
- 2025年社會學概論測試題含答案(附解析)
- 2025-2030年環境工程產業深度調研及發展趨勢與投資戰略研究報告
- 2025年事業單位公開招聘考試(E類)《綜合應用能力西醫臨床》試卷真題及完整解析
- 2024年安徽大學專職輔導員招聘筆試真題
- GB 9743-2024轎車輪胎
- 固井工藝技術培訓教學課件(77p)
- 入團志愿書(2016版本)(可編輯打印標準A4) (1)
- 盤扣式腳手架模板與支撐架專項施工方案
- 消防器材購銷合同2
評論
0/150
提交評論