




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、湖南科技大學(xué)信息與電氣工程學(xué)院DSP原理及應(yīng)用語音識別器的設(shè)計 學(xué) 院 信息與電氣工程學(xué)院班 級 13級自動化3班 姓 名 馮偉 學(xué) 號 1304020319 2016年5月1 概 述語音識別(Speech Recognition)是指讓機(jī)器聽懂人說的話,即在各種情況下,準(zhǔn)確的識別語音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖或執(zhí)行特定的任務(wù),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。利用DSP可以對語音信號進(jìn)行實(shí)時采集、提取語音特征向量、進(jìn)行語音識別。語音識別系統(tǒng)對語音特征參量的提取可以采用FFT等算法,不同的參數(shù)表示不同的頻譜包絡(luò)。本設(shè)計要求利用DSP的DMA方式進(jìn)行信號采集和信號處理,對語
2、音信號進(jìn)行實(shí)時識別。語音識別按不同的角度有以下幾種分類方法:1.識別的單位分類:有孤立詞識別、音素識別、音節(jié)識別、孤立句識別、連續(xù)語音識別和理解。2.識別的詞匯量分類:有小詞匯(10-50個)、中詞匯(50-200個)、大詞匯(200以上)等。3.講話人的范圍分類:有單個特定講話人、多講話人和與講話者無關(guān)。 4.識別的方法分類:有模塊匹配法、隨機(jī)模型法和概率語法分析法。本實(shí)驗的主要任務(wù)就是通過TMS30VC5402對語音信號“0”、“1”、“2”進(jìn)行訓(xùn)練和識別,并由相應(yīng)的燈LED0、LED1、LED2亮來顯示結(jié)果是否正確;該系統(tǒng)核心識別算法采用動態(tài)時間規(guī)整(DTW)算法,主要流程包括預(yù)處理、端
3、點(diǎn)檢測、提取特征值、模式匹配和模板訓(xùn)練。1.2 DSP系統(tǒng)設(shè)計的方法和步驟(1)對A/D、D/A進(jìn)行初始化;(2)根據(jù)識別系統(tǒng)的類型選擇一種識別方法,采用語音分析方法分析出這種識別方法所要求的語音特征參數(shù),作為標(biāo)準(zhǔn)模式由機(jī)器存儲起來,形成標(biāo)準(zhǔn)模式庫。(3)對語音進(jìn)行特征參數(shù)的分析,語音信號經(jīng)過相同的通道得到語音參數(shù),生成測試模板;(4)將測試模板與參考模板進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模板作為識別結(jié)果,從而實(shí)現(xiàn)語音的識別。2.1 設(shè)計總體方案 語音識別基本原理如圖1所示。模擬語音信號經(jīng)過數(shù)字化處理(即采樣和量化過程)之后,再經(jīng)去噪和預(yù)加重環(huán)節(jié)得到較干凈的數(shù)字語音信號。信號起止點(diǎn)檢測的主要作用是
4、從各類背景噪聲中找出語音的開始和終止點(diǎn)。這一環(huán)節(jié)對于后續(xù)特征參數(shù)的提取非常重要。在孤立詞語音識別中,確定語音起止點(diǎn)可有效減少系統(tǒng)計算量。另外,在相對較安靜的環(huán)境下,依靠短時能量與過零率這兩個特征就可以很好地完成語音信號的起止點(diǎn)判決。整個語音識別系統(tǒng)可分為兩個階段,即訓(xùn)練階段和識別階段。在訓(xùn)練階段,由用戶說出若干訓(xùn)練字,系統(tǒng)根據(jù)一定算法建立上述訓(xùn)練語句的特征參考模板;在識別階段,則從使用者的發(fā)音資料中先導(dǎo)出相關(guān)特征參量,再將這些參量與事先訓(xùn)練好的特征參考模板進(jìn)行相似度計算(即模式匹配)。若兩者的相似度大于設(shè)定的門限值,則予以確認(rèn),反之系統(tǒng)則會拒識。(實(shí)際中,采用相似度最大者作為匹配結(jié)果輸出)3
5、硬件設(shè)計(1). 系統(tǒng)構(gòu)成 這里采用DSP芯片為核心(圖2),系統(tǒng)包括直接雙訪問快速SRAM、一路ADC一路DAC及相應(yīng)的模擬信號放大器和抗混疊濾波器。外部只需擴(kuò)展FLASH存儲器、電源模塊等少量電路即可構(gòu)成完整系統(tǒng)應(yīng)用。(2). 系統(tǒng)主要功能模塊構(gòu)成語音處理模塊采用TI TMS320VC5402,其主要特點(diǎn)包括:采用改進(jìn)的哈佛結(jié)構(gòu),一條程序總線(PB),三條數(shù)據(jù)總線(CB,DB,EB)和四條地址總線(PAB,CAB,DAB,EAB),帶有專用硬件邏輯CPU(40位算術(shù)邏輯單元(ALU),包括1個40位桶形移位器和二個40位累加器;一個17×17乘
6、法器和一個40位專用加法器,允許16位帶或不帶符號的乘法),片內(nèi)存儲器(八個輔助寄存器及一個軟件棧),片內(nèi)外專用的指令集,允許使用業(yè)界最先進(jìn)的定點(diǎn)DSP C語言編譯器。TMS320VC5402含4 KB的片內(nèi)ROM和16 KB的雙存取RAM,一個HPI(HostPortInterface)接口,二個多通道緩沖單口MCBSP(Multi-Channel Buffered SerialPort),單周期指令執(zhí)行時間10 ns,帶有符合IEEE11491標(biāo)準(zhǔn)的JTAG邊界掃描仿真邏輯。語音輸入、輸出的模擬前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一體的模擬接口電路,并且與
7、DSP接口簡單,性能高、功耗低,已成為當(dāng)前語音處理的主流產(chǎn)品。16位數(shù)據(jù)結(jié)構(gòu),音頻采樣頻率為22205 kHz,內(nèi)含抗混疊濾波器和重構(gòu)濾波器的模擬接口芯片,還有一個能與許多DSP芯片相連的同步串行通信接口。TLC320AD50C片內(nèi)還包括一個定時器(調(diào)整采樣率和幀同步延時)和控制器(調(diào)整編程放大增益、鎖相環(huán)PLL、主從模式)。TLC320AD50C與TMS320VC5402的硬件連接,如圖3所示。4語音識別算法軟件實(shí)現(xiàn)(1) 系統(tǒng)流程圖(2)端點(diǎn)檢測端點(diǎn)檢測的目的就是在復(fù)雜的應(yīng)用環(huán)境下的信號流中分辨出語音信號和非語音信號,并確定語音信號的開始及結(jié)束。好的端點(diǎn)檢測方法能改變語音識別軟件存在的檢測
8、效果不理想、識別率低等問題。用短時能量短時過零率結(jié)合的方法,此方法實(shí)現(xiàn)簡單,在噪聲干擾不大的環(huán)境中可以取得較好的識別效果. 為了減小語音幀的截斷效應(yīng),需要加窗處理, 采用hamming窗,因為矩形窗的主瓣寬度最小,旁瓣高度最高,會導(dǎo)致泄漏現(xiàn)象,哈明窗的主瓣最寬,旁瓣高度最低,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。短時能量定義為:語音信號強(qiáng)度的度量參數(shù) 短時平均能量的主要用途:可以從語音中區(qū)別出濁音來,因為濁音時短時平均能量的值要比清音時短時平均能量的值大很多;可以用來區(qū)別聲母和韻母的分界、無聲和有聲的分界等作為一種超音段信息,用于語音識別中。短時過零率:波形穿過橫軸的次數(shù)短
9、時過零可以看作信號頻率的簡單度量:濁音時能量集中于較低頻率段內(nèi),具有較低的過零率,而清音時能量集中于較高頻率段內(nèi),具有較高的過零率。短時平均幅度: 這里用計算加權(quán)了的信號的絕對值之和替代平方和,因而短時處理的方法比較簡單,硬件更易實(shí)現(xiàn)。因此本實(shí)驗采用短時平均幅值和短時過零率相結(jié)合的雙門限端點(diǎn)檢測法 雙門限端點(diǎn)檢測顧名思義需要兩級檢測,即短時平均幅值檢測和短時平均過零率檢測首先用短時平均幅值進(jìn)行第一次判別,然后用短時平均過零率進(jìn)行第二次判別開始檢測之前,為計算整體平均幅值,當(dāng)短時平均幅值大于12的整體平均幅值或者第m+1幀的短時過零率大于3倍的第m幀的短時過零率,即找到了語音的開頭當(dāng)短時平均幅值
10、小于14的整體平均幅值,就找到了語音的結(jié)尾。兩種可能會引起端點(diǎn)檢測的誤判,一是短時噪音引起的誤判,此時則需要引入最小語音長度門限進(jìn)行噪聲判定,即語音段時間小于一定數(shù)值則認(rèn)定為是噪聲二是語音中字與字的時間空隙引起的誤判,此時需要設(shè)定最大靜音長度門限來降低識別的錯誤率。 這種雙門限端點(diǎn)檢測是最常用的孤立詞識別所采用的端點(diǎn)檢測方法,其方法物理意義明確,計算量小,在安靜的環(huán)境中有較好的識別率,但它也有很多不足,例如門限值需要由經(jīng)驗來設(shè)定,更換實(shí)驗環(huán)境,則效果不理想等可以采用的改進(jìn)方法:采用動態(tài)窗長短時能量檢測語音端點(diǎn)。檢測時首先要對語音信號進(jìn)行加窗分幀處理,如果窗的長度過大,在提高檢測速度的同時導(dǎo)致識
11、別率的下降,如果窗的長度過短,在提高檢測識別率的同時增加了檢測的時間考慮此種情況,采用動態(tài)窗長短時能量端點(diǎn)檢測方法,在靜音段使用大窗長,進(jìn)入過度段后,改用小窗長,進(jìn)入語音段則使用正常窗長.(3)特征量提取矢量量化的過程是:將語音信號波形的K個樣點(diǎn)的每一幀,或有K個參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個矢量,然后將這個矢量進(jìn)行量化臨界帶特征矢量是指:將一幀信號的功率譜按頻率高低分成若干個臨界帶,每一個臨界中的功率譜求和,即可得到相應(yīng)的臨界帶特征矢量。每一幀信號都對應(yīng)一個若干維的臨界帶特征矢量臨界帶特征矢量算法的過程第一步,求出每一幀的加窗語音Xn(m):m=0(N-1),的DFT的模平方值| X
12、n(k)|2此即為功率譜。做256點(diǎn)的DFT變換,采樣頻率 為8kHz,窗長為38ms(即N=256),窗形為漢明窗。| Xn(k)|2 與原始加窗語音信號的頻譜模平方|Xn (exp( jwk)|2 具有下列關(guān)系:| Xn(k)| 2=|Xn (exp( jwk)| 2 0256其中,wk =2fk ,fk=fs512k第二步,劃分臨界帶。在ofs2中確定若干個臨界帶頻率分割點(diǎn)。確定的方法是將i=1,2,3代人下面的式子中,即可求出相應(yīng)的 (以Hz為單位)。由此可以求出并且,由構(gòu)成第一臨界帶,構(gòu)成第二臨界帶,以此類推。在實(shí)驗數(shù)據(jù)中需要安排了16個臨界帶。第三步,求臨界帶特征矢量。將每一個臨界
13、帶中的功率譜| Xn(k)|2取和,即可得到相應(yīng)的臨界帶特征矢量。如果用表示臨界帶特征矢量,則每一個分量可通過以下的式子求得。從而,每幀都可以得到一個16維的臨界帶特征矢量: (4) 特定人語音識別算法(兩個特征量的比較)目前較為常用的語音識別算法有DTW算法(動態(tài)時間歸整法)、HMM算法(隱馬爾可夫模型法)和ANN算法(人工神經(jīng)網(wǎng)絡(luò)法)等 。考慮到DSP存儲資源的有限性與系統(tǒng)運(yùn)行實(shí)時性等要求,本文設(shè)計采用了計算量相對較小,內(nèi)存空間占用少,算法簡單、高效的DTW算法。該算法基于動態(tài)規(guī)劃(Dynamic Programming,DP)的思想,很好地解決了發(fā)音長短不一的模板匹配問題,在小詞匯量的語
14、音識別中獲得了較優(yōu)的識別效果。 動態(tài)時間歸整算法基本原理如下:以T和R分別表示測試和參考模板,為計算兩者之間的相似度,可以計算它們之間的距離D T,R。距離越小,相似度越高。設(shè)n和m分別是 T和R中任意選擇的幀號,d(n),(m)表示這兩幀之間的距離。距離函數(shù)取決于實(shí)際采用的距離度量,在DTW算法中通常采用歐氏距離。歐氏距離(Euclidean distance)也稱歐幾里得度量,是一個通常采用的距離定義,它是在m維空間中兩個點(diǎn)之間的真實(shí)距離。在二維和三維空間中的歐氏距離的就是兩點(diǎn)之間的距離。二維計算公式 = ( (x1-x2)2+(y1-y2)2 )。若n=m,則可以直接進(jìn)行計算,否則要考慮
15、將T(n)和R(m)對齊。對齊可以采用線性擴(kuò)張的方法,但這樣會忽略掉語音中各個段在不同情況下的持續(xù)時間,將會出現(xiàn)或長或短的變化情況,使識別效果難以達(dá)到最佳。因此,更多時候采用的是動態(tài)規(guī)劃(DP)的方法。以n為橫軸、m為縱軸構(gòu)建一個二維網(wǎng)格,網(wǎng)格中的每一個交叉點(diǎn)(n,m)表示測試模板中的某一幀與訓(xùn)練模板中的某一幀的交匯點(diǎn)。動態(tài)規(guī)劃算法就是確定一條路徑,路徑通過的格點(diǎn)坐標(biāo)即為進(jìn)行距離計算的幀號。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束,如圖所示DTW算法路徑原理示意圖為了使路徑不至于過分傾斜,將各段
16、線段的斜率限制在0.52。如果路徑已通過圖中格點(diǎn)(ni-1,mi-1), ),則下一個通過的格點(diǎn)(ni,mi )只可能是下列三種情況之一:用表示上述三個約束條件,求最佳路徑的問題可以歸結(jié)為:滿足約束條件時,求最佳路徑函數(shù),使沿該路徑的積累距離達(dá)到最小值,即編程時,可以在數(shù)據(jù)區(qū)開辟出兩個n X m的矩陣,即積累矩陣D和幀匹配距離矩陣d,其中幀匹配距離矩陣d(i,j )的值為測試模板的第i幀與參考模板的第j幀的距離,而D(n,m)則為最佳匹配路徑所對應(yīng)的匹配距離,DTW 算法可以直接按上面的描述來實(shí)現(xiàn)。通過將測試模板和模板庫中各個參考模板分別進(jìn)行DTW運(yùn)算,就可以找到與測試模板匹配距離“最小”的參考模板。當(dāng)這一匹配距離值小于所設(shè)的門限值時,就可識別出所輸入的語音信號。5設(shè)計(安裝)與調(diào)試的體會在實(shí)驗的過程中,我在網(wǎng)上查找了很多資料,并在圖書館查閱了很多語音識別相關(guān)的書籍,通過和同學(xué)以及學(xué)長的討論,我理解了語音識別的基本過程,以及相關(guān)過程的算法。在網(wǎng)上找到了不少例子,進(jìn)行了閱讀、分析,并結(jié)合我們的硬件設(shè)備和所學(xué)的知識,決定選擇相對簡單的平均幅值和過零率檢測法、臨界帶特征向量提取法、DTW(動態(tài)時間規(guī)劃)特征匹配算法。對語音識別的流程和技術(shù)有所了解后,就上機(jī)調(diào)試,將理論運(yùn)用在實(shí)踐中,又在調(diào)試中加強(qiáng)對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 自然語言及語音處理項目式教程 實(shí)訓(xùn)指導(dǎo) 實(shí)訓(xùn)1 配置NLP環(huán)境
- 分析師預(yù)期選股策略月報:分析師預(yù)期修正選股策略今年相對中證全指超額3.06
- 2025以色列與伊朗沖突全面解析課件
- 氫能源未來2025年加氫站建設(shè)成本效益分析與布局指南報告
- 2025年家具制造業(yè)個性化定制生產(chǎn)模式市場風(fēng)險預(yù)警報告
- 2025年煤炭清潔燃燒技術(shù)產(chǎn)業(yè)鏈上下游協(xié)同發(fā)展報告
- 工業(yè)互聯(lián)網(wǎng)平臺安全多方計算在智能倉儲物流中的應(yīng)用報告
- 教育大數(shù)據(jù)分析2025年:教育資源配置優(yōu)化與教育公平研究報告
- 工業(yè)互聯(lián)網(wǎng)平臺網(wǎng)絡(luò)安全態(tài)勢感知技術(shù)在電力行業(yè)的應(yīng)用與優(yōu)化報告
- 工業(yè)互聯(lián)網(wǎng)平臺安全多方計算技術(shù):2025年網(wǎng)絡(luò)安全風(fēng)險預(yù)警與應(yīng)對策略研究報告
- 《陋室銘》歷年中考文言文閱讀試題52篇(含答案與翻譯)(截至2023年)
- 2025年中國工商業(yè)光伏行業(yè)上下游產(chǎn)業(yè)鏈全景、發(fā)展環(huán)境及前景研究報告
- 2024年度護(hù)理三基考試題庫及答案(共570題)
- 股票名詞解釋(大全)
- 園林工人交通安全宣講
- 養(yǎng)老院消防安全應(yīng)急預(yù)案規(guī)范
- 人力資源外包投標(biāo)方案(技術(shù)方案)
- 食管動力性疾病病因介紹
- 《濱海旅游區(qū)介紹》課件
- 旅游分銷合作合同范例
- 顯示設(shè)備健康護(hù)眼技術(shù)研究-洞察分析
評論
0/150
提交評論