




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一種基于高斯混合模型的說話人識(shí)別的有效評(píng)分算法摘要:這篇文章提出了一個(gè)新的算法,該算法用以降低識(shí)別一個(gè)用高斯混合說話人模型框架的識(shí)別方法的計(jì)算復(fù)雜度。應(yīng)用于整個(gè)觀察序列是已知的,我們舉例說明了不可能的說話人模型的快速精簡(jiǎn)可以通過記錄觀測(cè)向量時(shí)間的序列來更新每個(gè)說話人模型的累積概率。整體的方法是集成到一個(gè)光束的搜索策略和用于減少識(shí)別說話人的時(shí)間,當(dāng)需要識(shí)別的說話人語音信息是從138人的YOHO語料庫中提取時(shí),這種方式通過在標(biāo)準(zhǔn)的全搜索方法140的一個(gè)因素和標(biāo)準(zhǔn)的光束搜索方法的六倍的一個(gè)因素來實(shí)現(xiàn),。一、介紹 通過語音識(shí)別說話人的能力在最近的文獻(xiàn)中備受關(guān)注。說話人識(shí)別的應(yīng)用和認(rèn)證包括銀行電話,計(jì)算
2、機(jī)安全,以及獲得對(duì)因特網(wǎng)的安全文件。在基于GMM模型的說話人識(shí)別中,該模型被證明與現(xiàn)有的技術(shù)相比,能夠提供優(yōu)越的性能。比如說,低至0.7%的錯(cuò)誤率已經(jīng)被報(bào)道,該數(shù)據(jù)是從YOHO語料庫采樣的總共138個(gè)說話人的8千赫語音。然而,由于試驗(yàn)材料的數(shù)量和長(zhǎng)度的增加,導(dǎo)致進(jìn)行識(shí)別的計(jì)算成本也隨之大幅增加。這篇文章通過提出的新方法用于降低說話人識(shí)別的計(jì)算復(fù)雜的問題,該方法用光束搜索修剪一新的觀測(cè)序列重排來實(shí)現(xiàn)。二、基于高斯混合模型的說話人識(shí)別 在高斯混合模型的說話人識(shí)別中,語音用特征化的幀同步觀測(cè)向量來表示:。典型的幀速率是以10毫秒,三維特征從以每個(gè)幀瞬間為中心的重疊分析窗口提取。在識(shí)別過程中,該系統(tǒng)由
3、一系列從S模型中提取的說話人的觀測(cè)向量X來表示。說話人識(shí)別由說話人模型決定,該模型發(fā)現(xiàn)在說話人中后驗(yàn)概率最大化,設(shè)為(1)利用Bayes規(guī)則,(1)可以表示為(2)假設(shè)每個(gè)說話人模型同樣是可能的,并指出對(duì)所有機(jī)型相同,識(shí)別任務(wù)可以概括為尋找 (3)其中被假定為模擬多變量高斯分布的混合物, ,其中和分別代表混合物質(zhì)量,均值向量和協(xié)方差矩陣第個(gè)分布。在式(3)中,觀測(cè)值被認(rèn)為是統(tǒng)計(jì)獨(dú)立的,因此時(shí)間信息不進(jìn)行編碼的模式。此外,為了避免數(shù)值穩(wěn)定性問題,式(3)使用對(duì)數(shù)似然計(jì),在一般情況下,使用對(duì)角線協(xié)方差矩陣產(chǎn)生模擬觀測(cè) (4)完整的評(píng)價(jià)(4)要求顯著的計(jì)算資源,如果說話人模型的數(shù)目或者持續(xù)時(shí)間的實(shí)驗(yàn)
4、材料大,那么會(huì)比較準(zhǔn)確。為減少計(jì)算開銷的一種常見方法涉及到使用最近鄰的一個(gè)近似的可能性,則式(4)變換為 (5)其中 (6)請(qǐng)注意,在混合物相關(guān)的常數(shù)是完全已知的現(xiàn)有算法運(yùn)行時(shí),可以預(yù)先計(jì)算。其他研究也考慮在可能性計(jì)算過程中應(yīng)用波束搜索。在這里,部分和的(5)式在時(shí)間中可以用來更新修剪閾值。 (7)其中是一組當(dāng)前的狀態(tài)(即未修建時(shí))模型,在時(shí)間和是用于定義用戶控制的波束寬度的常量時(shí)。在處理過程中,對(duì)數(shù)得分低于的說話人模型將被從搜索中消除。三、算法配方典型的語音處理系統(tǒng)通過校準(zhǔn)計(jì)算來自重疊窗口部分的數(shù)據(jù)(20至30ms的順序)來分析言論,在這期間聲道特性被假定固定。幀重疊的過程導(dǎo)致表現(xiàn)出高度相關(guān)
5、性的相鄰觀測(cè)結(jié)果。在說話人識(shí)別的情況下,相鄰觀測(cè)值之間的相關(guān)性違反原有的統(tǒng)計(jì)獨(dú)立性假設(shè),并且會(huì)導(dǎo)致光束搜索結(jié)果效率的下降。這是由于數(shù)量有限是信息是從觀測(cè)向量相比所得,因?yàn)樗鼈冊(cè)谡f話人聲學(xué)空間中有相似的位置。因此在加工過程中,許多觀測(cè)前必須檢查不可能說話模型,并將其修剪掉。事實(shí)上,我們可能會(huì)考慮使用可變幀頻來處理這個(gè)問題(例如,采樣語音觀測(cè)值往往是在快速光譜變化期間,而很少在緩慢變化光譜期間),我們指出這種做法將會(huì)丟失掉在整體決定中有用的數(shù)據(jù)。同樣,我們也考慮的方法是選擇的觀測(cè)值是基于頻譜距離準(zhǔn)則的(例如,當(dāng)抽樣光譜最后的觀測(cè)值和當(dāng)前的觀測(cè)值之間的距離超過一定的閾值時(shí),我們可以使用)。在此,節(jié)省
6、的速度可能會(huì)超過頻譜距離計(jì)算的成本。此外,就像在可變幀速率處理策略的情況下一樣可能會(huì)丟失信息。這篇文章提出的新方法提供了一個(gè)廉價(jià)的計(jì)算方法,來提高從每個(gè)觀測(cè)值中獲得的信息。為了實(shí)現(xiàn)這一目標(biāo),我們假定整個(gè)觀測(cè)序列是已知,并且考慮重新排列觀測(cè)的時(shí)間序列。正是出于這樣的事實(shí),參數(shù)序列的順序不影響式(5)中給出的最終決定,重排序列是基于最大化用于更新式(5)中的連續(xù)觀測(cè)值之間是時(shí)間間隔。這里提出的觀測(cè)重排有兩個(gè)優(yōu)點(diǎn):第一,由于觀測(cè)序列是重新排序的,在可變幀速率處理情況下不會(huì)丟失數(shù)據(jù);第二,幾乎沒有計(jì)算開銷被要求在已提出的標(biāo)準(zhǔn)下重排觀測(cè)序列。人們能夠想到的最大時(shí)間間隔是采樣來自不同因素的觀測(cè)值,它們能夠
7、被用來快速采樣測(cè)試條件下的聲學(xué)空間。該算法描述如下:第一步:初始化。可以形成一個(gè)子集,該子集包含一個(gè)選自均勻跨載體間隔向量集的向量。第二步:更新可能性得分中所有未修剪的說話人模型。在更新過程中,假設(shè)一個(gè)如式(7)中所述的閾值,以消除在說話人模型中低于該閾值的模型。第三步:更新整個(gè)觀測(cè)集。第四步:形成一個(gè)由先前元素中找到的最接近中點(diǎn)的采樣值構(gòu)成的子集,比如說:如果兩個(gè)元素同屬于一個(gè)集合,那么將其中間元素放入新定義的集合。一次增加變量第五步:重復(fù)2-4的步驟,直到一個(gè)說話人模型仍未被修剪或者所有的觀測(cè)向量已經(jīng)被檢查完,從中挑取最有可能的說話人。為了清楚起見,觀測(cè)矢量重新排序過程的圖形說明如圖1所示
8、,初步統(tǒng)一采樣幀數(shù)和總的觀察計(jì)數(shù)()。在這里,是觀測(cè)向量,首先被用于更新每個(gè)說話人模型的對(duì)數(shù)概率。接下來,剩余的說話人模型用于更新觀測(cè)向量。最后,剩余模型均用于更新向量 圖1 觀察序列(A)是標(biāo)準(zhǔn)GMM模型的評(píng)分算法的一個(gè)例子,在該算法中觀測(cè)向量根據(jù)抵達(dá)時(shí)間重新排序,(B)使用4)中提出的算法排列觀測(cè)向量。在(C)中,說話人識(shí)別的可能性估分用每個(gè)重新排序的觀察塊來評(píng)估(與模型的可能性期間更新修剪) 圖2 改善的速度與來自138人YOHO語音庫的說話人識(shí)別精度的全方位搜索方法有關(guān),(A)為波束搜索最鄰近的鄰居高斯混合密度評(píng)估,(B)為波束搜索最近的鄰居高斯混合密度的評(píng)價(jià)和建議觀察重排。在每一種情
9、況下,波束寬度逐步變窄以揭示說話人識(shí)別的準(zhǔn)確性和算法速度提高之間的權(quán)衡。 四、算法評(píng)價(jià)A、評(píng)價(jià)語料庫的語音特征GMM模型被用于估計(jì)YOHO語料庫中138個(gè)說話人語音(106名男性,32名女性)。要與以前的研究一致,用于計(jì)算評(píng)價(jià)方法的訓(xùn)練與測(cè)試條件如2中描述。在這里,每個(gè)說話人的訓(xùn)練數(shù)據(jù)是由數(shù)據(jù)庫中大約6分鐘的語音構(gòu)成。評(píng)價(jià)數(shù)據(jù)是由四個(gè)組合鎖短語構(gòu)成的10個(gè)驗(yàn)證會(huì)話(即10個(gè)測(cè)試,每段測(cè)試持續(xù)的時(shí)間大約是15s)。在模型訓(xùn)練中,語音需要使用一階有限脈沖響應(yīng)(FIR)濾波器的形式進(jìn)行預(yù)加重。通過使用以語音活動(dòng)檢測(cè)算法為基礎(chǔ)的能量來去除低能量幀,這樣靜音就會(huì)被消除。在模型訓(xùn)練中,從20ms重疊窗口中
10、獲得每10ms的語音參數(shù)。每一幀的參量是由19個(gè)梅爾倒譜系數(shù)(MFCC)組成的向量5并且歸一化幀能量。總體而言,64個(gè)高斯混合模型被用于每個(gè)說話人模型中。B、實(shí)驗(yàn)步驟將四種不同的算法SCE情況的運(yùn)算速度進(jìn)行了比較,包括:1)沒有用光束搜索的完整的高斯混合密度評(píng)價(jià)。2)沒有用光束搜索的最近鄰高斯混合密度估計(jì)。3)最近鄰的光束搜索。4)由最近鄰近似,光束搜索,以及觀察重新排序組成的算法。以4)為例,用于初始均勻采樣的值被設(shè)置為10。對(duì)于每個(gè)方案,測(cè)試令牌的百分比正確地識(shí)別了每一秒(以秒為單位測(cè)量的CPU時(shí)鐘)被正確地識(shí)別并被記錄。CPU時(shí)間測(cè)量是從評(píng)分過程的開始到說話人識(shí)別被確定這段過程。使用3)
11、和4)進(jìn)行模擬,將波束搜索寬度進(jìn)行調(diào)整以揭示說話人識(shí)別的精度計(jì)算和計(jì)算成本之間的一個(gè)折衷。C、實(shí)驗(yàn)結(jié)果基線系統(tǒng)的說話人身份識(shí)別的精度是99.3,我們指出這是相同的報(bào)告2中是識(shí)別精度。在沒有光束搜索的情況下,完整的密度評(píng)價(jià)(如案例1全搜索,該算法需要21465秒是CPU時(shí)間在Sun Ultra機(jī)上執(zhí)行整個(gè)1380測(cè)試方案。對(duì)于情況2),利用(6)中所給出的最近鄰的近似,ID率保持在99.3,同時(shí)提高了1.67倍的速度(12823s的CPU時(shí)間)。接下來,我們考慮最近鄰密度評(píng)價(jià)光束搜索,調(diào)整光束的寬度以揭示算法速度的權(quán)衡與說話人識(shí)別精度。這種情況下3)評(píng)價(jià)結(jié)果示于圖2中:其中a作為全搜索說話人正確
12、識(shí)別率中速度改善的系數(shù),在這里我們可以看到,當(dāng)搜索速度增長(zhǎng)超過基線搜索條件23(933s的CPU時(shí)間)這一因素時(shí),說話人ID表現(xiàn)開始迅速下降。然而,利用4)提出的重排序方法,我們?cè)趫D2(b)中說話人識(shí)別率保持在99.3,然而提供的一個(gè)因素140(153s的CPU時(shí)間)超過全搜索條件改善的速度。超過140的因素,所提出的方法其說話人識(shí)別率會(huì)逐漸下降。該方法提出了一個(gè)可以提高6倍速度的因素(即),超過傳統(tǒng)的序貫抽樣光束搜索,幾乎沒有額外的資源需求。五、總結(jié)在這篇文章中,我們已經(jīng)解決了減少一個(gè)以高斯混合模型為基礎(chǔ)的說話人識(shí)別的計(jì)算復(fù)雜量,需要說明的是觀測(cè)向量是從重疊分析框架中提取的,與高斯混合模型中
13、數(shù)據(jù)的假設(shè)性獨(dú)立是相悖的。由于臨近觀測(cè)向量的高程度的相關(guān)性,許多觀測(cè)向量在不可能候選人被剔除之前,必須使用光束搜索機(jī)制來更新每個(gè)說話人模型的對(duì)數(shù)似然比。因此,我們認(rèn)為在時(shí)間序列觀測(cè)向量中的數(shù)據(jù)是用來快速簡(jiǎn)化測(cè)試條件下的聲學(xué)空間,這個(gè)從該算法中獲得的觀測(cè)向量的信息比傳統(tǒng)的對(duì)數(shù)似然數(shù)據(jù)更重要。因此,不可能說話人模型從搜索空間中被快速清除掉了,大量地減少了說話人識(shí)別算法的計(jì)算量。本人提出的觀測(cè)向量排序被證明可以用于減少搜索時(shí)間,利用光束搜索高于通過傳統(tǒng)序列抽樣六倍額外因素來實(shí)現(xiàn)的。該方法易于實(shí)現(xiàn),能夠被容易地組合到以高斯模型為基礎(chǔ)的系統(tǒng)中,并且不需要額外的開銷。參考文獻(xiàn)1D.Reynolds and
14、 R.Rose,“Robust text-independent speaker identification using Gaussian mixture speaker models,”IEEE Trans.Speech Audio Processing,vol.3,pp.72-83,1995.2D. Reynolds, “Speaker identification and verfication using Gaussian mixture speaker models,”Speech Commum,vol.17,pp.91-108,1995.3F.Seide, “Fast likelihood computation for continuous-mmixture densities using a tree-based nearest neighbor search,”in Proc.Eurospeech95,Madrid, Spain,vol.2, pp.1079-1082.4J.Campbell, “Testing with the YOHO CD-ROM voice verfication corpus,” in Proc. IEEE ICASSP95,Detroit,MI, 19
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校校門區(qū)管理制度
- 學(xué)校配餐間管理制度
- 學(xué)生小餐桌管理制度
- 學(xué)院實(shí)訓(xùn)室管理制度
- 安全操作牌管理制度
- 安委會(huì)安全管理制度
- 客戶投訴記管理制度
- 室管理設(shè)備管理制度
- 家屬等待室管理制度
- 應(yīng)出勤天數(shù)管理制度
- 醫(yī)院安保人員培訓(xùn)方案
- 關(guān)于殘疾人法律知識(shí)講座
- 國(guó)開2023秋《漢語通論》期末大作業(yè)題目二參考答案
- 寧波市高一數(shù)學(xué)試卷-含答案
- 水站運(yùn)維服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 醫(yī)院培訓(xùn)課件:《自由體位在產(chǎn)程中的應(yīng)用》
- 歐洲件專用形式發(fā)票模板
- 蛛網(wǎng)膜下腔出血護(hù)理查房蛛網(wǎng)膜下腔出血教學(xué)查房課件
- 開油鍋紅袖章制度
- 鋼板倉氣力輸送粉煤灰系統(tǒng)安全操作規(guī)范
- 蘇繡文化課件
評(píng)論
0/150
提交評(píng)論