




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第四章 漢語數碼串語音分析第四章 漢語數碼串語音識別分析§4.1 聲學模型4.1.1 語音特征參數采用MFCC參數為語音特征參數,MFCC參數的提取步驟已在第二章中詳細給出,這里不再敘述。4.1.2 基于整詞模型的上下文無關連續HMM本文的語音模型一共有13個,其中包括11個數字(“1”有 yi 和 yao 兩種念法),一個靜音模型和一個詞間暫停模型。隱含馬爾科夫模型(Hidden Markov Model,HMM)是語音識別中描述語音的最常用的模型,大部分的語音識別系統都是基于HMM的。 因此本文也采用HMM描述語音。根據描述的語音單位的大小,HMM可分為:² 基于整詞模
2、型的HMM(Word based HMM)。其優點為可以很好地描述詞內音素協同發音的特點,建模過程也較為簡單。因此很多小詞匯量語音識別系統均采用整詞模型HMM。但在大詞匯量語音識別中由于所需建立的模型太多而無法使用。² 基于子詞模型的HMM(Sub Word based HMM)。該類HMM描述的語音單位比詞小,如英語語音識別中的基本音素,漢語語音識別中的半音節等。其優點為模型總數少,所以在大詞匯量語音識別中得到了廣泛的應用。其缺點在于其描述詞內協同發音的能力劣于整詞模型,但由于子詞模型已經得到了非常充分的研究,所以近年來在很多小詞表應用識別系統中也用了子詞模型。本文采用較為簡單的整
3、詞模型HMM。根據是否考慮上下文的影響,HMM可以分為:² 上下文無關(Context Independent,CI)HMM。CI-HMM不考慮上下文的影響,其優點在于所需建立的模型少,易于獲得較多的訓練語音,缺點在于沒有考慮上下文協同發音的影響,會對識別性能有所影響。² 上下文相關(Context Dependent,CD)HMM。CD-HMM需要考慮上下文的影響,需要建立的模型遠多于CI-HMM,因此無法對每一個模型獲得足夠多的訓練語音,需要利用聚類技術(如決策樹算法等)合并相近的模型。故CD-HMM的建模37第四章 漢語數碼串語音分析需要很大的工作量,但一套訓練很好的
4、CD-HMM的識別性能會明顯優于CI-HMM。本文采用了CI-HMM。根據輸出概率分布的不同,HMM可分為:² 離散HMM(Discrete HMM, DHMM)。其輸出概率是基于一套碼本的離散概率分布,其優點在于由于實現了存儲量和計算量都較小,所需的訓練語音也較少,但其矢量量化的過程會造成性能的損失。目前IBM公司的Via Voice系統采用的是DHMM。² 連續HMM(Continuous Density HMM, CDHMM)。其輸出概率是連續概率密度函數(一般是高斯混合密度函數)。其所需的訓練語音較多,模型參數存儲量和計算量都較大,在訓練語音足夠時,其性能優于DHM
5、M。目前英國劍橋大學和美國Bell實驗室的識別系統均基于CDHMM。² 半連續HMM(Semi Continuous HMM, SCHMM)。SCHMM是DHMM和CDHMM的折衷,與DHMM相似,其輸出為一套碼本,但每個碼字均為一個連續概率密度分布函數,這一點與CDHMM相近。其性能和所需的訓練語音等均介于DHMM和CDHMM之間。美國Carnegie Mellon大學的著名的SPHINX系統即基于SCHMM。本文采用CDHMM為語音模型。綜上所述,本文采用的語音模型為基于整詞模型的上下文無關連續HMM,狀態輸出概率分布為混合高斯密度函數。其各分量計算如式(4.1)所示:1v
6、33;1vvmTm-1vvmùexp bsm(x)=nê-2(x-us)Ss(x-us)ú (4.1)m1/2ëû(2p)2|S|s總的概率輸出即為各分量的加權和:Mvv bs(x)=åcsmbsm(x) (4.2) ()m=1vs表示當前狀態,M為混合分量數,m、S、c分別為各混合分量的均值矢量、協方差矩陣和混合分量系數。4.1.3 HMM的訓練HMM的訓練過程包括對模型的初始化和迭代估值的過程:² 初始化。我們直接將訓練語音串按狀態等分后,獲得每個狀態所屬的語音幀,各高斯分量的參數從該狀態所屬的語音幀中隨機抽出一部分統計
7、獲得,38第四章 漢語數碼串語音分析各高斯分量的權重系數均設置為相同的數。數碼語音的HMM狀態數設為7,靜音模型和暫停模型的狀態數設為1.² 迭代估值。訓練HMM常用的方法包括分段k-均值(Segmental k-Means)算法和Baum-Welch算法。兩者的區別在于前者僅考慮最優狀態路徑,而后者考慮所有可能的路徑。兩個算法的最終識別性能基本沒有區別,因此本文采用了Baum-Welch算法實現HMM的訓練。4.1.4 段長信息模型由于HMM是一個人為的模型,因此其對語音的描述是有一定缺陷的。其中一個主要的缺陷是HMM對語音段(包括狀態和詞)持續時間的不合理描述。設某一狀態跳回自身
8、的概率為Aii,則其持續時間d的概率分布為:t-1P(d=t)=Aii(1-Aii) (4.3)呈幾何分布,隨持續時間的上升而單調下降。這與實際是不符合的。圖4.1給出了數字”4”的第一個狀態的持續時間分布。由圖可0.20.15見,該分布與幾何分布完全不符合,所以HMM對段長的描述是很不合理的。概率0.10.050157911131517持續時間(幀)HMM對段長的描述的不合理之處在于傳統HMM中狀態跳轉概率與當前狀態已持續時間無關。 因此我們可以采用與狀態持續時間相關的狀態跳轉概率,即估計Aii(d=t),其主要過程為:圖4.1 數字”4”的第一狀態的持續時間分布1. 估計段長的概率分布。目
9、前主要文獻中描述段長概率分布可以用g分布,高斯分布或直接的直方圖描述。考慮到前兩者的概率分布形式均為人為的假設,而存儲直方圖所需的存儲量與輸出概率分布參數的存儲量相比是很小的。因此本文采用直方圖描述。其估計過程只需用Viterbi算法將訓練語音完成對各狀態的對準,獲得各狀態和各詞的起點和終點以計算語音段的長度,然后統計各狀態持續時間的分布即可。39第四章 漢語數碼串語音分析2. 在獲得段長概率分布后,按式(4.4)計算出持續時間為d的狀態跳轉概率: ìPi(d=t),若>eïït-1Aii(d=t)=í1-åPi(d=j) (4.4)j=
10、1ïï若<eîe,其中e為一個很小的數,可設為10-20。實驗證明考慮段長分布后,識別性能會有明顯的提高。§4.2 搜索算法4.2.1 搜索算法的選擇由于在識別數字串時,我們不知道每個數字的分界點在什么地方,所以我們需要用搜索算法來獲得識別的最佳詞串。目前的搜索算法主要可以分為兩類,即基于動態規劃和基于堆棧譯碼的搜索算法。后者雖然在理論上可以實現最優搜索,但其實現過程很復雜,而且難以實現幀同步的搜索,對系統的實時性帶來了很大的限制,所以在小詞表語音識別中,搜索算法基本上都是基于動態規劃的。目前常見的在基于動態規劃的搜索算法包括:² 分層構
11、筑(Level-Building)算法。該算法是由Bell實驗室的Rabiner等人在研究英語數字識別中提出的。該算法的優點是容易納入串長信息,缺點是不能實現幀同步,而且計算量也較大。² Viterbi譯碼算法。該算法利用Viterbi譯碼的過程進行幀同步的搜索,易于實時實現,也容易納入語法信息。目前的大詞匯量語音識別系統基本上都基于該搜索算法,小詞表連續語音識別也大都利用了該算法。本文采用Viterbi譯碼作為系統的搜索算法。4.2.2 搜索網絡結構的設置圖4.2給出了不定長數字串的搜索網絡。其中灰色的節點代表語法節點,即詞條的端點,黑色的節點代表聲學節點,即詞條的各個狀態。語法節
12、點的作用為傳遞前一個聲學節點的路徑信息,并在路徑信息中加入前一個聲學節點所40第四章 漢語數碼串語音分析屬的詞條信息,而聲學節點的作用是計算輸入語音特征矢量與當前狀態的匹配分數,并傳遞路徑信息。節點間的箭頭表示路徑信息的傳遞途徑,值得注意的是從語法節點到語法節點的路徑信息是需要立即傳送的,其他的路徑信息是延遲一幀傳送的。以下給出聲學節點和語法節點的結構定義:struct ACSNODE / 聲學節點結構;struct GRMNODE / 語法節點結構;41 int WordModel; / 本聲學節點屬于哪一個詞條 int StateIndex; / 本聲學節點屬于哪一個狀態 int Pred
13、ecNum; / 前續節點數 int Predeccesor40; / 前續節點標號 BOOL PrdPrpty40; / 前續節點性質(是聲學節點還是語法節點) int PrecedNum; / 前續節點數 int Predeccesor40; / 前續節點標號 BOOL PrdPrpty40; / 前續節點性質(是聲學節點還是語法節點) 圖4.2 不定長數字串搜索網絡第四章 漢語數碼串語音分析圖4.3則給出了定長數字串(串長為N)的搜索網絡結構.4.2.3 多候選幀同步搜索算法考慮到在很多實用情況下(如語音撥號電話機可以輸出多個候選讓用戶選擇,進行識別結果的拒識時也需要多候選),識別系統需
14、要除最優詞串外的多候選詞串,因此本文采用多候選幀同步搜索算法獲得多個識別詞串候選。 首先我們定義基本路徑信息結構:struct PathInfo /基本路徑信息;由于聲學節點和語法節點所需傳遞的信息的不同,所以我們還需定義聲學節點上的路徑信息和語法節點上的路徑信息:42 圖4.3 定長數碼串的搜索網絡 int WordNum; /本路徑已有的詞數 int WordSeqMAXSTRINGLEN; /本路徑已識別出的詞序列 int WordSegMAXSTRINGLEN; /本路徑已識別出的詞的邊界 double AccumScore; /本路徑積累的識別分數第四章 漢語數碼串語音分析struc
15、t GRMPathInfo /語法節點上的路徑信息struct ACSPathInfo / 聲學節點上的路徑信息;搜索步驟如下:1.1.1根據當前識別任務按圖4.2或圖4.3設置好節點數據。1.2設置初始路徑信息:WordNum=0 double LocalScore; / 本狀態匹配分數 int WordDuraNBESTNUM; / 整詞持續時間 int StateDuraNBESTNUM; / 當前狀態持續時間 PathInfo CurrPathNBESTNUM; / 多候選路徑信息(按積累分數遞減排列) PathInfo CurrPathNBESTNUM; / 多候選路徑信息(按積累分
16、數遞減排列) ;ì-1050,其他節點 AccumScore =íî0,第一個語法節點WordDurai=0,i=0,1,K,NBESTNUM-1i=0,i=0,1,K,NBESTNUM-1 StateDura2. v設輸入語音特征矢量序列為xtt=1,2,K,T,其中T為總的幀數。對于每一幀輸入語音,我們分別對聲學節點和語法節點作Viterbi搜索:2.1聲學節點2.1.1 設置節拍i = 0。2.1.2 對于節點i,設置節拍m0。2.1.3對于節點i的前續節點k = Predeccesorm,設置節拍j = 043第四章 漢語數碼串語音分析2.1.4對節點k中
17、的第j選路徑的累積分數加上其與狀態持續時間相關的跳轉概率:' AccumScore=AccumScore+log(A(StateDuraj)2.1.5將路徑j與節點i的 CurrPath中已插入的路徑相比較:(a) 若與某條路徑p相同(即路徑的詞條序列相同),則比較兩條路徑積累分數的大小,若路徑j分數大于路徑p,則將路徑p刪除,將路徑j按分數大小插入CurrPath,否則放棄插入。(b) 若與所有路徑都不同,則按分數大小插入CurrPath。(c) 插入路徑時,修改狀態持續時間和詞持續時間。若前續節點不是本節點,則狀態持續時間重設為1,否則狀態持續時間加1;詞持續時間加1。2.1.6
18、若j<NBESTNUM-1, j+, 跳回2.1.4。2.1.7 若m< PredecNum-1,m+,跳回2.1.3。2.1.8 計算本節點與當前語音匹配分數LocalScore,并將其加到各路徑積累分數上。2.1.9 若i<總聲學節點數-1, i+, 返回2.1.2,否則本幀循環結束。2.2 語法節點2.2.1 初始化語法節點對于各語法節點WordNum=0=-1050 AccumScorej=false, j = 0, 1, 2, , 語法節點數-1 并設置標志位 GNodeFlag2.2.2利用樹的遍歷算法更新各語法節點,設置節拍j = 0。2.2.3 若GnodeFlagj = true,跳至2.2.9,否則執行2.2.4。2.2.4 對于節點j,設置節拍k = 0。2.2.5 若節點j的前續節點p = Predeccesork為聲學節點,則先對于聲學節點p的各路徑將詞間跳轉概率加入路徑累積分數:AccumScoreq=AccumScoreq+log(A(WordDuraq), q = 0,1, ., NBE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 父子樓房協議書
- 室內球館租賃協議書
- 私人采砂協議書
- 江陰醫保協議書
- 電子報稅協議書
- 家庭寄養寵物協議書
- 電力代管協議書
- 居間協議解約協議書
- 家庭封窗安全協議書
- 師徒結對計劃協議書
- 注射泵操作使用課件
- 完整版青少年普法宣傳教育全文課件
- 陜西省探礦權采礦權使用費和價款管理辦法
- CB-Z-806-2016船舶動力定位模型試驗規程
- 押安徽中考數學第21題(統計與概率)(原卷版+解析)
- 浙江省杭州市杭州第二中學2023-2024學年高一下數學期末達標檢測試題含解析
- DZ∕T 0248-2014 巖石地球化學測量技術規程(正式版)
- 2023年下半年軟件設計師上午真題試卷
- 2024年同等學力申碩-同等學力(哲學)筆試參考題庫含答案
- 中醫藥文化進校園
- 電氣工程及其自動化畢業論文-基于單片機的太陽光追蹤系統設計
評論
0/150
提交評論