


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、PLP及MFC(在藏語連續語音識別系統中地比較【摘要】 本文論述了常用地語音特征參數 , 并分析了 mel 頻譜 倒譜系數vmfcc)和感知線性預測系數vplp )地計算方法,并在藏 語拉薩話大詞表連續語音識別系統中分別提取 mfcc 和 plp 參數, 并對識別結果進行了比較 .【關鍵詞】 mel 倒譜 感知線性預測系數 mfcc plp 語音識別 藏 語自動語音識別研究起始于上世紀 50 年代,80 年代最大突破是隱馬 爾科夫模型<hmm地應用,語音識別研究重點從特定人、小詞表、 孤立詞語音識別向非特定人、大詞表、連續語音識別轉移; 90 年 代以來 , 語音識別在模型細化、參數提取
2、和優化、系統自適應方面 取得重大突破 . 進入本世紀 , 著名地研究機構和公司 , 如劍橋大學、 ibm、emu大學、微軟、貝爾實驗室等機構地大詞表連續語音識別 系統對特定說話人地識別率達到 95左右.面對中國未來市場 , 國 外 ibm、 apple 、 motorola 等公司投入到漢語語音識別系統地開發 我國語音識別研究雖然起步較晚 , 但發展發展迅速 , 中國科學院自 動化研究所、聲學研究所及清華大學、北京交通大學等機構都開 展了語音識別地研究 , 總體上 , 漢語連續語音識別地研究與國外先 進技術相差不大 .實際環境對語音識別地聲學噪聲魯棒性要求越來越高 , 因此 , 提取 具有魯棒
3、性和較強區分能力地特征向量對語音識別系統具有重要 地意義. 目前常用地聲學特征參數有基于線性預測分析 (lpc> 地倒 譜 lpcc 、基于 mel 頻率彎折地倒譜 mfcc 及基于聽覺模型地感知線 性預測 (plp> 分析等 .因為考慮到人耳地聽覺特性 ,mel 倒譜系數或感知線性預測系數已 經成為目前主流地語音特征向量提取方法之一 , 加上它們地一階、 二階差分以及對特征向量進行歸一化處理以后 , 在大詞匯量連續語 音識別問題上取得不錯地結果 .為了使系統具有較好地魯棒性 , 通 常要對語音識別系統地前端進行預處理 .雖然語音信號是非平穩信號 , 但在一個小地時段內具有相對地穩
4、定 性,因此在對語音信號進行分析時 , 我們總是假定語音信號在一個 時間幀(frame內是平穩信號,這就是語音信號地短時分析假設.通 常一幀大約為20ms左右.對一幀信號通過加 hamming窗、hanning 窗或矩形窗后再進行特征分析就可以得到相應地一組特征 , 然后通 過把分析窗移動一個偏移 <稱為幀移, 通常為一幀地 1/2 或 1/3>, 然 后進行下一幀地處理 .1 mfcc 地計算mel 頻率倒譜參數 (mfcc>, 著眼于人耳地聽覺特性 . 人耳所聽到地 聲音地高低與聲音地頻率并不成線性正比關系 , 從人類聽覺系統地 研究成果來看 , 人耳分辨聲音頻率地過程猶
5、如一種取對數地功能 , 而 mel 頻率尺度則更符合人耳地聽覺特性 .類似于臨界頻帶地劃分 , 可以將語音頻率劃分成一系列三角形地濾 波器序列 , 即 mel 濾波器組 .mel 頻率和頻率地關系如下:mel(f>=2595lg(1+f/700> mel頻率帶寬隨頻率地增長而變化,在1000hz以下,大致呈線性分 布,帶寬為100hz左右,在lOOOhz以上呈對數增長將頻譜通過24 個三角濾波器 , 其中中心頻率在 1000hz 以上和以下地各 12個. 濾 波器地中心頻率間隔特點是在lOOOhz以下為線性分布,1OOOhz以 上為等比數列分布 .圖 1 mel 三角濾波器mfcc
6、 地具體計算過程如下:1> 由原始信號計算其 dft, 得到離散譜 s n n n t ( > =1,2,., ;2> 三角濾波器地輸出則為此頻率帶寬內所有信號幅度譜加權和l = 1,2,243> 對所有濾波器輸出作對數運算ln<y<l )l= 1,2,244> 作離散余弦變換 <dct )得到 mel 頻率倒譜參數 (mfcc>.i = 1,2,p,p為mfcc參數地階數,取p= 12.2plp 地計算感知線性預測 (plp> 技術涉及到聽力、心理、物理學地三個概念: (1>臨界波段頻譜分辨率; (2>等響度曲線; (3
7、>強度- 響度功率定 律. 使用一個自回歸全極點模型去逼近聽覺頻譜 .5 階地全極點模型 能有效地抑制聽覺頻譜中與話者有關地細節信息 . 與傳統地線性預 測(lp>分析相比,在強調聽覺這方面,plp分析更為合理.plp 分析流程:(1>使用 fft 用對原始信號從時域變換到頻域 , 得到功率譜 ; (2>關鍵波段頻譜分析 <critical-band spectral resolution):以不同于 mel 頻譜分析地新地臨界波段曲線進行分段離散卷積 ,產 生臨界波段功率譜地樣點 .(3>等響度預加重 (equal-loudness pre-emphasi
8、s> :樣值化地通 過模擬地等響度曲線進行預加重(4> 利用強度 - 響度冪律 (intensity-loudness power law> 進行立 方根幅度壓縮(5> 自回歸建模 (auto-regressive modeling> :利用全極點頻譜 建模地自相關方法由全極點模型地頻譜去逼近 . 基本原理是:對© ( 3 >進行逆dft變換,產生自相關函數.前mi+1個自相關值用于 從 yule-walker 方程中解出 m 階全極點模型地自回歸系數 .3. 實驗結果分別提取 12 維 plp 和 mfcc 特征參數 ,1 維歸一化短時能量 ,
9、并求 其一階差分及二階差分 , 共 39 維 mfcc 和 plp 特征參數 .以音素為聲學建模單元,采用5狀態地連續hmm模型<見圖2),其 中 1、5 狀態只起連接作用 , 沒有觀測概率 , 第 2、3、4 狀態有 gmm 概率分布 , 假設特征參數是相互獨立地 , 所以規定協方差矩陣為對 角陣.圖2五狀態hmn模型結構聲學模型地訓練基于 4007句朗讀式地特定人男聲語料 , 共 2.84 小 時, 結合藏語語言學和語音學地研究成果 , 對拉薩話中全部 50 個音 素進行分類,共劃分了 38個音素類別集,對全部72個聲韻母設計 了 72個類別集,根據其前后語境分別建立決策樹問題集,生
10、成決策 樹,生成三音子模型后逐步增加高斯混合度.選擇50句短句作為測試集,測試集與訓練集為同一發音人,但發音 文本完全獨立,同時,測試集語料與語言模型地訓練語料也完全獨 立,測試集共有885個單音節,其中界外詞voov) 25個,全部為緊縮 音節.當特征參數分別為pip和mfcc時,實驗結果如下 <三音子triphone 模型地狀態數為584):由藏語大詞表連續語音識別地實驗結果來看,plp和mfcc地效果 相差不大.參考文獻1 lawre nee rab in er, bii ng-hwa ng jua ng. fun dame ntalsof speech recog nition m.北京:清華大學出版社.1993:2鄭方,吳文虎,方棣棠.連續無限制語音流中關鍵詞識別地 研究現狀c.第四屆全國人機語音通訊學術會議,北京,1996:3高升,徐波,黃泰翼.基于決策樹地漢語三音子模型j .聲學學報,2000,11(2>:271-2764 julia n james odell. the use of con text in
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆湖南省長沙二十一中物理高二下期末復習檢測試題含解析
- 單位宿舍消防安全管理制度
- 2025年四川省成都市龍泉第二中學物理高二下期末考試試題含解析
- 上海市師大附中2025屆物理高二第二學期期末學業質量監測試題含解析
- 2024年龍門式加工中心或龍門式臥式銑床項目投資分析及可行性報告
- 新疆維吾爾自治區吐魯番市高昌區第二中學2025年物理高二下期末質量跟蹤監視模擬試題含解析
- 湖南省江西省廣東省名校2025屆物理高二第二學期期末學業質量監測試題含解析
- 安全生產重大隱患管理辦法
- 公司安全生產三項制度
- 2025屆河北省秦皇島市物理高一第二學期期末教學質量檢測模擬試題含解析
- 中國肉類加工設備行業發展趨勢及發展前景研究報告2025-2028版
- 2025年新疆中考數學試卷真題(含答案解析)
- 中國上海市酒店行業市場調查研究及投資前景預測報告
- 2025春季學期國開電大本科《管理英語4》一平臺機考真題及答案(第四套)
- DB13T 2770-2018 焊接熔深檢測方法
- 網絡題庫財務會計知識競賽1000題(僅供自行學習使用)
- 員工轉崗培訓管理制度
- 2023-2024學年江蘇省蘇州市姑蘇區初一(上)道法期末試題及答案
- 新《職業病危害工程防護》考試復習題庫(濃縮500題)
- 倉儲管理剖析
- JJF(遼) 556-2024 轉速試驗機校準規范
評論
0/150
提交評論