




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優質文檔-傾情為你奉上項目題目: 基于Matlab的語音識別 一、引言語音識別技術是讓計算機識別一些語音信號,并把語音信號轉換成相應的文本或者命令的一種高科技技術。語音識別技術所涉及的領域非常廣泛,包括信號處理、模式識別、人工智能等技術。近年來已經從實驗室開始走向市場,滲透到家電、通信、醫療、消費電子產品等各個領域,讓人們的生活更加方便。語音識別系統的分類有三種依據:詞匯量大小,對說話人說話方式的要求和對說話人的依賴程度。(1)根據詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量及無限詞匯量識別系統。(2)根據對說話人說話方式的要求,可以分為孤立字(詞)語音識別系統、連接字語音識別系統及
2、連續語音識別系統。(3)根據對說話人的依賴程度可以分為特定人和非特定人語音識別系統。二、語音識別系統框架設計2.1語音識別系統的基本結構語音識別系統本質上是一種模式識別系統,其基本結構原理框圖如圖l所示,主要包括語音信號預處理、特征提取、特征建模(建立參考模式庫)、相似性度量(模式匹配)和后處理等幾個功能模塊,其中后處理模塊為可選部分。三、語音識別設計步驟3.1語音信號的特征及其端點檢測圖2 數字7開始部分波形圖2是數字”7”的波形進行局部放大后的情況,可以看到,在6800之前的部分信號幅度很低,明顯屬于靜音。而在6800以后,信號幅度開始增強,并呈現明顯的周期性。在波形的上半部分可以觀察到有
3、規律的尖峰,兩個尖峰之間的距離就是所謂的基音周期,實際上也就是說話人的聲帶振動的周期。這樣可以很直觀的用信號的幅度作為特征,區分靜音和語音。只要設定一個門限,當信號的幅度超過該門限的時候,就認為語音開始,當幅度降低到門限以下就認為語音結束。3.2 語音識別系統 3.2.1語音識別系統的分類語音識別按說話人的講話方式可分為3類:(1)即孤立詞識別(isolated word recognition),孤立詞識別 的任務是識別事先已知的孤立的詞,如“開機”、“關機”等。(3)連續語音識別,連續語音識別的任務則是識別任意的連續語音,如一個句子或一段話。從識別對象的類型來看,語音識別可以分為特定人語音
4、識別和非特定人語音識別,特定人是指針對一個用戶的語音識別,非特定人則可用于不同的用戶。顯然,非特定人語音識別系統更符合實際需要,但它要比針對特定人的識別困難得多。 3.2.2語音識別系統的基本構成語音識別系統的實現方案如圖3所示。輸入的模擬語音信號首先要進行處理,包括預濾波,采樣和量化,加窗,端點檢測,預加重等。語音信號經處理后,接下來很重要的一環就是特征參數提取。圖3 語音識別系統在訓練階段,將特征參數進行一定的處理之后,為每個詞條得到一個模型,保存為模版庫。在識別階段,語音信號經過相同的通道得到語音參數,生成測試模版,與參考模板進行匹配,將匹配分數最高的參考模型作為識別結果。3. 2.3
5、語音識別系統的特征參數提取特征提取是對語音信號進行分析處理,去除對語音識別無關緊要的冗余信息,獲得影響語音識別的重要信息。語音信號是一種典型的時變信號,然而如果把觀察時間縮短到十毫秒至幾十毫秒,則可以得到一系列近似穩定的信號。人的發音器官可以用若干段前后連接的聲管進行模擬,這就是所謂的聲管模型。全極點線性預測參數 (LPC: Liner Prediction Coeffieient)可以對聲管模型進行很好的描述,LPC參數是模擬人的發聲器官的,是一種基于語音合成的參數模型。在語音識別中,很少用LPC系數,而是用LPC倒譜參數 (LPCC: Liner Prediction Cepstral C
6、oefficient)。LPCC參數的優點是計算量小,對元音有較好的描述能力,其缺點在于對輔音的描述能力較差,抗噪聲性能較差。然而,人的聽覺系統是一個特殊的非線性系統,它響應不同頻率信號的靈敏度是不同的,基本上是一個對數關系。近年來,一種能夠比較充分利用人耳這種特殊的感知特性的參數得到了廣泛的應用,這就是Mel倒譜參數(MFCC:Mel一Frequency CePstral Coeffieient)。MFCC參數能夠比LPCC參數更好地提高系統的識別性能。3.2.4 特定人語音識別算法DTW算法在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Warping,動態時
7、間歸整)算法,該算法基于動態規劃(DP)的思想,解決了發音長短不一的模板匹配問題,是語音識別中出現較早、較為經典的一種算法,用于孤立詞識別。HMM算法在訓練階段需要提供大量的語音數據,通過反復計算才能得到模型參數,而DTW算法的訓練中幾乎不需要額外的計算。所以在孤立詞語音識別中,DTW算法仍然得到廣泛的應用。 無論在訓練和建立模板階段還是在識別階段,都先采用端點算法確定語音的起點和終點。已存入模板庫的各個詞條稱為參考模板,一個參考模板可表示為R=R(1),R(2),R(m),R(M),m為訓練語音幀的時序標號,m=1為起點語音幀,m=M為終點語音幀,因此M為該模板所包含的語音幀總數,R(m)為
8、第m幀的語音特征矢量。所要識別的一個輸入詞條語音稱為測試模板,可表示為T=T(1),T(2),T(n),T(N),n為測試語音幀的時序標號,n=1為起點語音幀,n=N為終點語音幀,因此N為該模板所包含的語音幀總數,T(n)為第n幀的語音特征矢量。參考模板與測試模板一般采用相同類型的特征矢量(如MFCC,LPC系數)、相同的幀長、相同的窗函數和相同的幀移。四、基于Matlab的語音識別系統仿真4.1 語音模板的獲取運用系統的采集模塊錄制一個普通男聲聲音,錄制 十個語音為實驗對象 分別命名為, 分析處理后提取特征參數,經過模板訓練,為十個語音分別選取最合適的語音作為模板,存入數據庫建立參考模型庫。4.2 語音訓練類似,錄制一組普通男聲的聲音,同樣為 十個語音,作為十個待測語音信號。 圖4 數字0的訓練波形及系數4.3 語音識別訓練結束后,用錄音設備錄入09中的數字,經過波形及系數匹配識別出錄入數字,并正確顯示識別結果。圖4 數字0的識別結果五 總結通過這次二級項目,更深入的了解的Matlab軟件強大的功能,了解了利用Matlab軟件進行界面設計等。學習到語音識別技術仿真中各函數的運用。在不斷地改進和完善中,這次二級項目終于順利完成。參考文獻1何強、何英. MATLAB擴展編程北京:清華大學出版社, 200262江官星 王建英 一種改進的檢測
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江農業商貿職業學院《戲劇與教育理論及實踐》2023-2024學年第二學期期末試卷
- 廣州體育學院《蜜蜂生物學實驗》2023-2024學年第二學期期末試卷
- 克拉瑪依職業技術學院《交際口語(Ⅰ)》2023-2024學年第二學期期末試卷
- 廣西大學《可摘局部義齒工藝學》2023-2024學年第二學期期末試卷
- 信陽學院《食品摻偽檢驗技術》2023-2024學年第二學期期末試卷
- 浙江工業職業技術學院《手工印染》2023-2024學年第二學期期末試卷
- 山東特殊教育職業學院《民族建筑與文化》2023-2024學年第二學期期末試卷
- 天津中醫藥大學《植物生物技術實驗》2023-2024學年第二學期期末試卷
- 皖西學院《牙解與頜生理學》2023-2024學年第二學期期末試卷
- DB13T 5553-2022 生態清潔小流域治理技術規范
- 湖南省婁底市漣源市2023-2024學年六年級下學期期末數學試題
- 應征公民政治考核表(含各種附表)
- 2024年湖南省中考地理+生物試卷
- 【企業分拆上市問題探究文獻綜述5800字】
- 腫瘤隨訪登記工作以及管理
- 醫院新技術開展總結及整改措施
- 國家開放大學-法學專業-2023年秋季《法律文化》形成性考核作業答案
- 2022室外排水設施設計與施工-鋼筋混凝土化糞池22S702
- 人才培養方案論證會流程
- 高校師德師風專題培訓課件
- 【復習資料】10398現代漢語語法修辭研究(練習測試題庫及答案)
評論
0/150
提交評論