第一部分基本理論_第1頁
第一部分基本理論_第2頁
第一部分基本理論_第3頁
免費預覽已結束,剩余4頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、個仝資料整覺,僅_限個人學衛使用請 勿商用 第一部分:基本理論:語音信號處理方法細則解釋備注時域處理語音數字化和預處理數字化:取樣-> 量化預處理目的:提升語音信號的高頻部分,使信號的頻譜變得平坦。以 便于進行頻譜分析或聲道參數分析。短時平均能量和短時 平均幅度短時平均能量主要用途:可以從清音中區分出濁音可以用來確定聲母與韻母,無聲與有聲,連字等的分界。 可以作為一種超音段信息用于語音識別。短時平均幅度:因為短時平均能量對于高電平信號處理過于靈敏,所以采用短時平局幅度。短時過零分析如果信號按段分割,就稱為短時,把各段信號的過零率作統計平均, 就是短時平均過零率。短時自相關函數和平 均幅度

2、差函數短時自相關函數具有自相關函數所有的性質,是語音信號時域分析的一個重要參量。短時平均幅度差函數與短時自相關函數類似的功效,但運算量和對硬件的要求可以降低許多,相對來說,這種技術應用廣泛。高階統計量一般指高階矩、高階累積量、高階矩譜、高階累積量譜。時頻處理短時傅里葉變換是個一個二維函數,也稱時頻函數。物理意義:函數將窗函數的中心移至某處截取信號,再做傅里葉變換。矩形窗具有較窄的主瓣,因而具有較咼的頻率分辨率,但它具有較咼 的旁瓣,且會產生 破碎”的頻譜;采用哈明窗得到的短時頻譜卻要平 滑的多,因而應用的比較普遍。短時傅里葉變換以固定的滑動窗對信號進行分析,從而可表征信號的局域頻率特性。小波變

3、換時域等寬的分析方法并不是對所有信號都合適,例如:在信號的低頻 端具有很咼的頻率分辨率,而在咼頻端的頻率分辨率較低。所以出現 了小波變換。分析的目的:既要看到森林(信號的概貌),又要看到樹木(信號的細節)。倒譜同態處理復倒譜和倒譜無論對于語音通信、語音合成還是語音識別,倒譜參數所含的信息都 比其他參數多,其缺點是運算量較大。盡管如此,倒譜分析仍是一種 有效的語音信號分析方法。語音信號的倒譜分析 與同態解卷積將語音信號中的激勵信號與聲道響應分離,并且只需用十幾個倒譜系數就能相當好地描述語音信號的聲道響應。避免相位卷繞的算法緣由:在復倒譜分析中,Z變換后得到的是復數,所以取對數時進行的是復對數運算

4、,這時存在相位的多值性問題,稱為相位卷繞”由于相位卷繞使后面求復倒譜、以及由復倒譜恢復語音等運算均存在不確定性而產生錯誤。解決方法:最小相位信號法第二部分:語音識別系統項目細節解釋備注語料庫基本特征理論語言學原則指導構成和取樣按照明確的語言學原則并采取隨機抽樣方法收集語料,而非簡單堆積。作為自然語言運用的樣本,具有代表性。 以電子文本形式存儲且通過計算機自動處理。 基于語料庫的研究以量化研究為基石,以概率統計為基本手段,以數據驅動”為基本理念。語料文本是一連續的文本或話語片斷,而不是孤立的句子和詞匯。類型以不冋層面來考慮可以劃分為不冋的類型。語音語料庫建立、收集和標注。 語音特性描述。863漢

5、語普通話合 成語料庫語音識別 的預處理語音識別單元的選 取1、選擇原則:首先,對于不同的語言,基兀選擇的考慮是不同的,例如:漢語,可用聲母一韻母”也可用音節字、詞、等作為識別單兀。 第二,識別基元選擇具有靈活性,用它可以組成其他的語音或語法單位, 具有穩定性。靈活性希望基兀盡可能地小,如音素;而穩定性則希望基兀盡可能地大,如詞甚至詞組。第三,基元的選擇還需要考慮搜索時間模型存儲開銷。基元選擇愈 小、存儲量愈小,算法愈復雜,正識率愈低。第四,基元選擇也與實際用途有關,有限詞匯量的識別基元可以選 的大一點(如詞或短語等);而無限詞匯量則應選的小一點(如音素、 聲母一韻母等)。這是語音 識別中非 常

6、重要的 環節自動分段一端點檢 測技術作用:用數字處理技術來找出語音信號中的各種段落(如音素、音節、 詞素、詞等)的始點和終點的位置。方式:基于能量的端點檢測基于LPC-10聲碼器的端點檢測。 基于信息熵的語音端點檢測基于頻帶方差的端點檢測基于倒譜特征的帶噪語音信號端點檢測基于HMM的端點檢測方法 基于分形技術的端點檢測基于自相關相似距離的端點檢測 基于遲滯編碼的端點檢測10、實時端點檢測算法在漢語中 主要目的 是找出字 的兩個端 點,進而 找出其中 聲母段和 韻母段語音信 號特征參 數基音周期概念:指發濁音時聲帶震動所引起的周期運動時間間隔。幾種有效且實用的的方法:1、自相關法及其改進:區分清

7、音和濁音并估計出基音周期。具體方法:1、先對語音信號進行低通濾波,然后 再計算短時自相關函數。2、采用中心削波技術3、用短時幅度差函數來代替短時自相 關函數,這樣也省去乘法運算從而節約運算時間。2、并行處理法:語音信號經過預處理后形成一系列脈沖,這一串脈沖保留了信號的周期性特征, 而略去與基音周期無關的信息;然后由平行的一些簡單的檢測器估計基音周期。最后在后處理部分,對這幾個基音周期檢測器的估值作邏輯組合,輸出估計的正確周期。 這種算法比較簡單,硬件實現容易,不僅能估計出基音周期, 而且還可以定出峰點位置, 這在一些按基音周期操作的處理中是很有用的。3、倒譜法:a采樣,用哈明窗平滑,求出倒譜。

8、b.求倒譜峰值及其位置,C.峰門值計算比較得出結論d.峰值檢測。4、簡化逆濾波法:將語音信號降低采樣率并提取其模型參數,然后用 這些參數對原信號進行逆濾波得到音源序列,最后求出該序列的峰值位置以求得基音周期。線性預測參數線性預測信號模型:3種信號模型:1、自回歸信號模型(AR模型)2、滑動平均模型(MA模型)3、自回歸滑動平均模型(ARMA 模型)理論上講, ARMA模型和MA模型可以用無限高階的 AR模型來表達。對 AR模 型作參數估計時遇到的是線性方程組的求解問題,相對來說容易處理, 而且實際語音信號中全極點又占了多數。線性預測誤差濾波設計一個預測誤差濾波器,就是求解預測系數ai使得預測誤

9、差e(n)在某個預定的準則下最小,這個過程稱之為線性預測分析。語音信號的線性預測分析語音信號序列是一個隨機序列,它也可以用上述的三種信號模型化來進 行分析。線性預測分析的解法 經典的解法有兩種:1、自相關法:假定語音信號序列s(n)在間隔ow nWN1 以外等于零,如萊文遜-德賓算法;2、協方差法:不規定語音信號s(n)的長度范圍,而定義自相關序列r(j)中n的范圍為0w nWN1,在此范圍內認為估算 r(j) 所需要的s(n)值存在,即s(n)的長度范圍應該為-pw n<N1,如喬里斯基算 法。上面兩種方法中的精度和穩定性之間都存在矛盾,因而導致了斜格法的逐漸形成。他們都分成兩步:先計

10、算相關矩陣,再解一組線性方程。優缺點:自相關法由于使用了窗函數來截取,認為地平滑了s(n),從而引入了誤差,所以自相關法求得預測系數精確度不高;另一方面,協方差法由于沒有限制 s(n)的長度,又不采用窗口函數,所以精度高,但不 如自相關法穩定。斜格法及其改進在運算中不需要用窗口函數對信號進行加權,同時又保證解得穩定性, 因而較好的解決了精度和穩定性的矛盾。稍后從最大熵譜分析的觀點也得到了相似和等價的結果,接著對其缺點進行了改進: 因為一般的斜格法的運算量要比自相關法及協方差大4倍左右,協方差斜格法可使運算量恢復到自相關法或協方差法的水平上,而冋時保持較高的精度和解得穩定。線譜對(LSP)參數線

11、譜對分析原理:在線性預測分析基礎上頻域求解的方法, 它求解的模 型是線譜對”線譜對是線性預測參數的另一種表示形式, 用線譜對參 數構成合成濾波器 H(z)時和Ki參數一樣容易保證穩定性,而且這種參數的量化特性和內插特性均優于反射系數。 線譜對分析的求解:1、代數方程式求根2、DFT 法LPCC參數線性預測倒譜參數(LPCC)是線性預測系數(LPC )在倒譜域中的表 示。該特征是基于語音信號為自回歸信號的假設, 利用線性預測分析獲 得倒譜系數。優點:計算量小,易于實現,對元音有較好的描述能力。 缺點:在于對輔音的描述能力較差,抗噪聲性能較差。MFCC參數美爾頻標倒譜系數(MFCC )考慮了人耳的

12、聽覺特性,將頻譜轉化為基 于Mel頻標的非線性頻譜,然后轉換到倒譜域上。由于充分考慮了人的聽覺特性,而且沒有任何前提假設,MFCC參數具有良好的識別性能和抗噪能力,但其計算量和計算精度高。ASCC參數研究表明,中頻段 1500Hz2500Hz對口音分類的影響最大,并提出了 一種新的口音敏感刻度,在這種標度下計算的參數就是口音敏感參數ASCC。它與MFCC相同,采用濾波器組的方法計算出來。感覺加權的線性預 測(PLP)特征PLP參數:基于聽覺模型的特征參數。是全極點模型預測多項式的一組系數,等效于一種LPC特征。用輸入的語音信號經聽覺模型處理后所得到的信號 替代傳統的LPC分析所用的時域信號。R

13、ASTA-PLP 參數很多語音參數估計技術很容易被通信信道的頻率響應干擾。感覺加權線性預測(PLP)語音分析是基于語音的短時譜的,在計算語音短時譜之 后又進行了數種基于聽覺的變換,PLP參數(正如其他的許多基于短時譜的參數),當短時譜被通信信道頻率影響后變得脆弱。使用RASTA方法使得PLP和其他的一些基于短時譜的技術對線性譜失真更具有穩 健性。動態差分參數通常語音信號的動態參數能較好的反映語音信號的時變特征,因此獲得每幀信號的特征參數,還要計算相應的差分參數。高階信號譜類特征在進行語音信號處理時先將信號分幀(每幀大約10ms30ms), 幀期間內的信號視為平穩過程,將整幀信號作DFT等處理得

14、到該幀信號的頻譜或功率譜特征。這種處理方法遇到的問題是幀長的合宜選取。若選得太長,在語音信號的特性時變較大的情況下,幀會將不冋時刻具有相當特性差別的特征彼此混淆, 或將一些短時出現的重要特征沖淡、淹沒。反之,將幀長取短則又會因幀內樣值少而不足以表征低頻成分,這事實上相當于加上了使信號畸變的低通濾波。解決問題的途徑為:將幀長取的較長,但采用高階信號譜類來代替付氏 譜作為每幀的特征, 使之能較好的表征時變 (非平穩)信號的特性。有 一種高階信號譜稱為 WV譜特征變換線性判別分析(LDA)用一類比較簡單的判別函數進行分析。首先假定g(x)是x的線性函數:g(x)=wix+wiO.對于c類問題,可以定

15、義 c個判決函數,則i=1,2, 最后要用樣本去估計wi和wi0,并把未知樣本 x歸到具有最大判別函數值的類別中去。從本質上 看,提取 的語音特 征參數不 是正交 的,它的 概率統計主分量分析(PCA)信息處理過程中的一個關鍵問題就是大數據量問題, 因此如何以盡可能 小的代價,盡可能地減小數據量,獲取盡可能高的效率。簡單地丟棄一 部分數據,顯然會導致很大的失真,破壞信息的完整性。所謂主分量分析,就是要尋找、保留數據中最有效、最重要的成分”舍去一些冗余的、包含信息量很少的成分”分布也不 是獨立 的,這三 種分析方 法將語音 特征參數 正交化、 獨立化。獨立分量分析(ICA)假設n個觀測變量,由n

16、個獨立分量線性組合而成,觀測變量和獨立分 量均為隨機變量。在時刻t有n個觀祭變量,整合各種變量關系,構成矩陣形式。這個矩陣模型稱為線性獨立分量分析。語音識別 的模型動態時間規整(DTW)語音識別中,不能簡單地將輸入模板直接作比較,因為語音信號具有相當大的隨機性,即使是冋一個人在不冋時刻的冋一句話的冋一個音,也不可能具有完全相同的時間長度,因此時間規整是必不可少。 動態時間規整就是把時間規整和距離測度計算結合起來的一種非線性規整技術。動態規劃技術(DP): 一種最優化算法,它把一個 N階段決策過程化 為N個單階段的決策過程,亦即化為逐一做出決策的 N個子問題,以 便使計算簡化。米用DP技術實現的

17、DTW的缺點: 系統識別性能過分依賴于端點檢測 動態規劃的計算量太大。沒有充分利用語音信號的時序信息。 求累積距離時,對測試模板的各幀給予相等權重。有了上面的缺點,才有了 DTW算法的改進。隱馬爾可夫模型(HMM)定義:1、信號模型:隱馬爾可夫是一個雙重隨機過程:一重用于描述 非平穩信號的短時平穩段的統計特征;另一重隨機過程描述了每個短時平穩段如何轉變到下一個短時平穩段。基于這兩重隨機過程,HMM即可有效解決怎樣辨識具有不同參數的短時平穩信號段,怎樣跟蹤它們之間的轉化等問題。人的言語過程也是這樣一種雙重隨機過程, 因為語音信號本身是一個可 觀察的序列,而它又是大腦里的(不可觀察的) 、根據言語

18、需要和語法 知識(狀態選擇)所發出的音索(詞,句)的參數流。數學描述:一個 HMM完全可以由2個模型參數 N , M和3個概率分 布參數A,B, t來確疋。HMM中的3個基本問題及其解決方案欲使所建立的隱馬爾可夫模型能解決實際問題,必須解決的3個問題(詳見實用語音識別基礎182頁)。隱馬爾可夫模型的類型:馬爾可夫鏈HMM算法實現的問題初始模型的選取HMM狀態類型的選擇HMM中B參數類型的選擇 多個觀察值序列訓練比例因子問題克服訓練數據不足分類模型(SVM)學習問題學習過程一致性的條件 學習過程收斂速度的界。 結構風險最小歸納原理 支持向量機人工神經網絡它是在現代神經科學研究成果的基礎上提出來的

19、,并反映了人腦功能的基本特性。神經元的基本模型:加權求和部分,線性動態SISO(單輸入-單輸出)系統,非線性函數映射前向網絡:強有力的學習系統,其結構簡單且易于編程; 從系統的觀點 來看,前向網絡是一靜態非線性映射,通過簡單非線性處理單元的復合映射可以獲得復雜的非線性處理能力。但從計算的觀點來看,前向網絡并不是一種強有力的計算系統,它缺乏豐富的動力學行為。反饋網絡:一種反饋動力學系統, 它比前向神經網絡具有更強的計算能 力。在此網絡中穩定性與其聯想記憶的能力密切相關。高斯混合模型(GMM)本質上是一種多維概率密度函數,一個具有M個混合成分的 D維GMM,可以用M個高斯成員的加權和來表示。參數調

20、整算法 一EM算法:GMM參數的估計基于最大似然準則(ML),通過EM迭代算法來實現。第三部分:語音識別中關鍵處理技術項目細節解釋備注說話人自 適應和說 話人歸一 化技術自適應方式的分類特定人識別-> 非特定人識別-> 自適應方式批處理式:訓練語音由用戶一次性錄入,然后進行統一的自適應訓練,更新系統參數。在線式:訓練語音是用戶使用識別系統時所識別的語音,系統根據累 積德統計量,按照一定時間間隔更新系統參數。立即式:訓練語音是當前正在識別的語音,沒有在線式自適應的累積。MLLR算法介紹基于變換的一種自適應算法。語音特征空間的劃分:由于MLLR算法的前提假設是相近的語音共享 相同的變換,因此需要根據一定的準則對語音空間進行劃分,然后對 每一類空間估計其相應的變換。參數的估計:可以采用最大期望算法迭代估計W。對均值矢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論