




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1n9.1基 音 檢 測p自相關法p并行處理法p倒譜法p簡化逆濾波法n9.2共振峰估值p帶通濾波器組法p離散傅里葉變換(DFT)p倒譜法pLPC法語音檢測分析主要涉及語音特征參數的提取和分析。語音檢測分析主要涉及語音特征參數的提取和分析。 2 基音是語音信號的一個重要參數,在語音產生的數字模型中它也是激勵源的一個重要參數。基音是指發濁音時聲帶振動所引起的周期性,而基音周期是指聲帶振動頻率的倒數。 準確地檢測語音信號的基音周期對于高質量的語音分析與合成、語音壓縮編碼、語音識別和說話人確認等具有重要的意義。 3 基音檢測的主要困難反映在:基音檢測的主要困難反映在: 聲門激勵信號并不是一個完全周期的
2、序列,在語音的頭、尾部并不具有聲帶振動那樣的周期性,有些清音和濁音的過渡幀是很難準確地判斷是周期性還是非周期性的。在許多情況下,清音語音和低電平濁音語音段之間的過渡段是非常細微的,確認它是極其困難的。 從語音信號中去除聲道影響,直接取出僅和聲帶振動有關的激勵信號的信息并不容易,例如聲道的共振峰有時會嚴重影響激勵信號的諧波結構。這種影響在發音器官快速動作而共振峰也快速改變時,對基音檢測是最具危害性的。4 語音信號包含有十分豐富的諧波分量,基音頻率最低可達80Hz左右,最高可達500Hz左右,但基音頻率處在100200Hz的情況占多數。因此,濁音信號可能包含有三四十次諧波分量,而其基波分量往往不是
3、最強的分量。因為語音的第一共振峰通常在3001 000Hz范圍內,這就是說,28次諧波成分常常比基波分量還強。豐富的諧波成分使語音信號的波形變得非常復雜,經常發生基頻估計結果為實際值的二、三次倍頻或二次分頻的情況。 在濁音段很難精確地確定每個基音周期的開始和結束位置,這不僅因為語音信號本身是準周期性的(即音調是有變化的),還由于波形的峰或過零受共振峰的結構、噪聲等的影響。 在實際應用中,背景噪聲強烈影響基音檢測的性能,這對于移動通信環境尤為重要,因為經常會出現高電平噪聲。 基音頻率變化范圍大,從老年男性的80Hz到兒童女性的500Hz,接近三個倍頻程,給基音檢測帶來了一定的困難。5 基音檢測方
4、法的研究: 穩定并提取準周期性信號的周期性方法; 因周期混亂,采取基音提取誤差補償的方法; 消除聲道(共振峰)影響的方法。在基音提取時,容易錯誤地提取真正基頻兩倍的頻率(倍基音)和基頻一半的頻率(半基音),至于產生哪種錯誤隨抽取方法而變化。6 基音檢測的方法大致可分為三類:基音檢測的方法大致可分為三類: 波形估計法。直接由語音波形來估計,分析出波形上的周期峰值。其特點除了比較簡單、硬件實現容易外,還可定出峰值點的位置,這在一些處理中是很有用的。 相關處理法。在時域中,周期信號的最明顯特征就是波形的類似性,因而可以通過比較原始信號和它位移后的信號之間的相似性來確定基音周期。如果移位距離等于基音周
5、期,那么,兩個信號具有最大類似性(相關性最強)。大多數現存的基音檢測法都基于這一概念,最具代表性的是自相關函數法。這種方法在語音信號處理中被廣泛使用,這是因為相關處理法抗波形的相位失真強,另外它在硬件處理上結構簡單。 變換法。將語音信號變換到頻域或倒譜域來估計。比如倒譜法(CEP) 。雖然倒譜分析算法比較復雜,但基音估計效果較好。7直方圖(Histogram)也叫柱狀圖,是一種統計報告圖,由一系列高度不等的縱向條紋表示數據分布的情況。8 濁音信號的自相關函數在基音周期的整數倍位置上出現峰值,而清音的自相關函數沒有明顯的峰值出現;因此檢測是否有峰值就可判斷是清音或濁音,檢測峰值的位置就可提取基音
6、周期值。 短時自相關函數中保留的語音信號的幅度太多,它有許多峰值,而其中許多都起因于聲道響應的阻尼振蕩。當基音的周期性和共峰峰的周期性混疊在一起時,被檢測出來的峰值就會偏離原來峰值的真實位置。9 主要問題主要問題是第一共振峰可能對基音造成干擾:在某些濁音中,第一共振峰頻率可能會等于或低于基頻;如果其幅度很高,就可能在自相關函數中產生一個峰值,而該峰值又可以同基頻的峰值相比擬。例:其中有3個明顯的峰值。通過自相關波形,可以確定位于第40個樣本時延處的峰值相應于基頻為200Hz;而位于第20個樣本處的峰值與相應于基頻時的峰值差不多一樣大,因而可能將其誤認為基音。圖9-1 一個女子發音的自相關函數,
7、語音信號以8kHz取樣10處理思路處理思路: 對語音信號進行預處理以去除聲道響應的影響及其他帶來擾亂的特征 分析:語音信號的低幅度部分包含大量的共振峰信息,而高幅度部分包含大量的基音信息。 方法之一:非線性處理。非線性處理的優勢是在采用硬件時可在時域低成本地實現。 處理效果:任何削減或者抑制語音低幅度部分的非線性處理都會使自相關函數的性能得到改善。11圖9-2中心削波中心削波后的語音通過一個自相關器,這樣在基音周期位置呈現大而尖的峰值,而其余的次要峰值幅度都很小。 12計算自相關函數的運算量是很大的,其原因是計算機進行乘法運算非常費時。為此可對中心削波函數進行修正,采用三電平中心削波的方法 y
8、(n)=Cx(n)1,x(n)CL y(n)=Cx(n)0,x(n)CL y(n)=Cx(n)-1, x(n)-CL 三電平中心削波的自相關函數的計算很簡單,設y(n)表示削波器的輸出,則由自相關函數直接計算的公式 Rn(k)y(n+m)w(m)y(n+m+k)w(m+k)如果窗口為直角窗,則上式變為 Rn(k)y(n+m)y(n+m+k) 上式中y(n+m)y(n+m+k)的取值只有-1、0、1三種情況,因而不需作乘法運算而只需要簡單的組合邏輯即可以。13(a) 不削波(b) 中心削波(c) 三電平削波Rn(k)均歸一化圖9-4信號波形及其自相關函數的舉例14用到的波形屬性是正負峰值的幅度和
9、位置,后峰至前峰的測度以及峰值至谷值的測度。基音周期計算是將這6個估值與每一個基音周期估計器的最新的兩個估值相結合,比較這些估值,出現次數最多的值就是該時刻的基音周期。這種方法對濁音周期可以作出很好的估計;如果是清音,各個估值不一致,因而可判斷為清音。通常,可按10ms一幀來估計基音周期,同時得到“濁音/清音”判決。優點是運算簡單、硬件實現容易。此外,不僅能估計出基音周期,而且還可以確定峰點位置。 語音最初經截止頻率為900Hz的低通濾波,如果需要的話還附加高通濾波去除50Hz的交流聲。 語音信號在經過預處理后,形成一系列脈沖,這一串脈沖保留了信號的周期性特性,而略去了與基音檢測無關的信息,找
10、出峰點和谷點,再根據其位置和幅度產生6個脈沖序列 對這些基音檢測器的輸出作邏輯組合,得出估計值 估計這6個脈沖序列,得出6個基音周期的估值 15 濁音語音的復倒譜中存在峰值,其出現時間等于基音周期;而清音語音段的復倒譜則不出現這種峰值。利用這一性質可以進行清/濁音判斷并估計濁音的基音周期。 這種方法的步驟: 計算復倒譜 解卷 提取出聲門激勵信息,在預期的基音周期附近尋找峰值 如果峰值超過了預先設定的門限,則語音段定為濁音,而峰的位置就是基音周期的估值。 如果不存在超出門限的峰值,則語音段定為清音。 如果計算的是依賴于時間的復倒譜,則可估計出激勵源模型及基音周期隨時間的變化。 16 倒譜和復倒譜
11、表現出相同的性質估計基音周期,因而沒有必要對語音波形完全解卷,所以用倒譜c(n)就完全可以,這樣可以從復雜的相位計算中解脫出來。由于人耳對語音信號的相位不很敏感,因而可以假定輸入語音信號是最小相位序列,這樣可由最小相位信號法計算c(n)。 17(a)信號的對數幅度譜;(b) 理想化的對數功率譜的傅里葉反變換圖9-6倒譜示意圖l包括兩個分量:相應于頻譜包絡的慢變分量、相應于基音諧波峰值的快變分量。通過濾波或再取一次傅里葉反變換,即可將慢變分量與快變分量分離開。l靠近原點的低倒頻部分是頻譜包絡的變換,而位于t0處的窄峰為諧波峰值的變換,表示基音周期。l如果基音峰值的變換與頻譜包絡變換之間的間隔足夠
12、大,則可很容易地提取基音信息。 18 取樣率為10kHz,幀長51.2ms,然后求出c(n)。采用矩形窗,因為由其得到的譜估計質量較差。采用海明窗的長度及窗相對于語音信號的位置對倒譜峰的高度有相當大的影響。為使倒譜具有明顯的周期性,窗口選擇的語音段應至少包含有兩個明顯的周期。考慮到窗的逐漸弱化效應,窗寬至少應包含兩個周期。窗應盡可能短,使得分析間隔中的語音參數變化減至最小。這是短時處理的要求。而窗越長,由始到終的變化就越大,因而與模型之間的偏差就越大。19 求出倒譜峰值IPK和其位置IPOS, 如果峰值未超過某門限值,則進行過零計算; 若過零數超過某門限值,則為無聲語音幀。反之,則為有聲,且基
13、音周期仍等于該峰值的位置。 無聲檢測器是時域信號的峰值檢測器;若低于某門限值,則認為是無聲,勿須進行上述由倒譜檢測基音的計算。20圖9-9含噪語音的對數功率譜示意圖 對數功率譜的低電平部分被噪聲填滿,并處于主導地位,從而掩蓋了基音諧波的周期性。這意味著倒譜的輸入不再是純凈的周期性成分,而倒譜中的基音峰值將會展寬并受到噪聲的污染。隨著噪聲電平的增加,對數功率譜的有用部分將會變得越來越小,從而使倒譜的靈敏度也隨之下降。 21逆濾波的作用:將頻譜包絡逐漸平坦下去。得到的線性預測誤差信號只包含有激勵的信息,而去除了聲道影響,所以它提供了一個簡化的(廉價的)頻譜平滑器。激勵信號正比于預測誤差信號,如果線
14、性預測模型與產生實際語音信號的系統越接近,則e(n)就越接近激勵信號。對于濁音,可以預料在每一基音周期的起始處預測誤差較大。檢測e(n)信號相鄰兩最大脈沖之間的距離即可對基音周期作出估計。 見書P125 圖9-10 差濾波器稱為逆濾波器或預測誤)(為增益其中:)(濁音的轉移函數: z1zAAA(z)AzHp1kk-k22 語音信號經過10kHz取樣后,通過0900Hz的數字低通濾波器(LPF),其目的是濾除聲道譜中聲道響應部分的影響,使峰值檢測更加容易,低通濾波在除去高階共振峰影響的同時,還可以補充自相關函數的時間分辨率的不足。然后降低取樣率5倍,經5次分頻降低到2kHz(因為聲門激勵序列的寬
15、度小于1kHz,所以用2kHz取樣就足夠了);當然,為此后面要進行內插。 提取LPC參數。這里LPC濾波器的階數P4,因為,四階濾波器完全可作為01kHz頻率范圍內信號譜的模型,因為此范圍內通常只有12個共振峰。然后進行逆濾波,得到接近平坦的譜。圖9-12基音檢測的簡化逆濾波法23 進行短時自相關運算,檢測出峰值及其位置,得到基音周期值。 為提高基音周期值的分辨率,可以對最大峰值所處范圍的自相關函數進行內插。 最后進行有/無聲判決。此處與倒譜法類似,有一個無聲檢測器,以減少運算量。 圖9-12基音檢測的簡化逆濾波法242526 基音檢測有很多方法,大多是基于低通濾波和自相關法的。其主要缺點是:
16、 準確性不夠高; 一般只能求出分析幀的平均基音周期值,難以對每個基音周期進行準確的定位和標記,而這在許多場合卻是很重要的。采用子波分析技術進行基音檢測能得到比較好的效果。 27共振峰信息包含在語音信號的頻譜包絡之中,譜包絡的峰值基本上對應于共振峰頻率。因此一切共振峰估計都是直接或間接地對頻譜包絡進行考察,關鍵是估計語音頻譜包絡,并認為譜包絡中的最大值就是共振峰。共振峰估計存在的問題: 1虛假峰值。在正常情況下,頻譜包絡中的最大值完全是由共振峰引起的。但在線性預測分析方法出現之前的頻譜包絡估值器中,出現虛假峰值是相當普遍的現象。甚至在采用線性預測方法時,也并非沒有虛假峰值:為了增加靈活性,給預測
17、器增加二至三個額外的極點(如6.6.1所述),而這些極點會引起虛假譜峰產生。 2共振峰合并。相鄰共振峰的頻率可能會靠得太近難以分辨。此時,不是認為共振峰額外地多了而是認為共振峰明顯地少了,而探討一種理想的能對共振峰合并進行識別的共振峰提取算法中有不少實際困難。 3高基音語音。傳統的頻譜包絡估值方法是利用由諧波峰值提供的樣點。而高基音語音(如女聲和童聲)的諧波間隔比較寬,因而為頻譜包絡估值所提供的樣點比較少,所以譜包絡本身的估計就不夠精確。即使采用線性預測方法,所得到的譜包絡的峰值仍然比較接近諧波峰值而常常偏離真正的共振峰位置。28通過濾波器組的設計可以使估計的共振峰頻率同人耳的靈敏相匹配,其匹
18、配程度比線性預測法要好。濾波器的中心頻率有兩種分布方法: 一種是等間距地分布在分析頻段上,則所有帶通濾波器的帶寬可設計成相同,從而保證了各通道的群延時相同。 另一種是非均勻地分布,例如為了獲得類似于人耳的頻率分辨特性,在低頻端間距小,高頻端間距大,帶寬也隨之增加。這時濾波器的階數必須設計成與帶寬成正比,使得它們輸出的群延時相同,不會產生波形失真。為了使頻率分辨率提高,濾波器的階數應取足夠大階數應取足夠大的值,使得帶通濾波器具有良好的截止特性,但同時也意味著每個濾波器均有較長的沖激響應。由于語音信號具有時變特性,顯然較長的沖激響應會模糊這種特性,所以頻率分辨率與時間分辨率總是相互矛盾的。29這種
19、方法的缺點是:由于濾波器組中濾波器數目的限制,估計的共振峰頻率不可避免地存在誤差;而且對共振峰帶寬不易確定;由于無法去除聲門激勵的影響,可能會造成虛假峰值。圖9-15給出了一種利用濾波器組進行共振峰估值的系統結構示意圖。濾波器的中心頻率從150Hz到7kHz,分析帶寬從100Hz到1kHz,頻率按對數規律遞增。濾波器輸出經全波整流而用于提供頻譜包絡估值。辨識邏輯用于對適當頻率范圍內的峰值進行辨識而獲得前三個共振峰。頻譜峰值被依次指定,每一峰值都被約束在其已知的頻率范圍之內并且高于前邊共振峰的頻率。301濁音時 聲門激勵為周期脈沖序列,因而語音信號具有明顯的周期性,所以信號譜中出現多個諧波頻率,
20、其值為nfp(這里fp為基頻,n為正整數)。 由于進行DFT得到的頻譜受基頻諧波的影響,最大值只能出現在諧波頻率上,因此共振峰測定誤差較大。為減少誤差,可由諧波頻率n fp及上、下兩個次極值頻率(n-1)fp、(n+1)fp的插值求得共振峰頻率。312清音時 信號具有隨機噪聲的特點,其頻譜不具有離散諧波特性,但其包絡基本上反映了聲道的特性。 對其頻譜進行線性平滑而得到譜包絡,并用一個峰值搜索算法來確定峰值,并標記為共振峰參數。 32第一項為聲門激勵序列的倒譜,它是以基音周期為周期的沖激序列;而第二項為聲道沖激響應序列的倒譜,它集中在n=0附近的低倒譜域。因而可在倒譜域用一個濾波器濾除聲門激勵的影響。這個濾波器稱為倒濾波器,其形式為 l(n)1,nn0 l(n)0,nn0 其中n0值應選得比基音周期NP小,這樣可將聲道沖激響應的倒譜提取出來。再對倒譜進行DFT就得到聲道模型的對數譜lnH(k),而所求得的頻譜包絡的平滑程度根據使用倒濾波器的不同成分而發生變化。)(ln)(ln)(ln)(111jjjeHFeUFeSFnc10| )(ln|1)(210NneeHNncknNjjNk利用IDFT求c(n)時,與時域取樣類似,為避免發生混疊,需要將N取得足夠大 33對于濁音和清音,倒譜法的檢測效果不同: 濁音時,若頻譜包絡的變換和基音峰
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 零售業店鋪顧客流量分析與營銷策略考核試卷
- 針織品銷售區域布局優化考核試卷
- 重疾險產品設計
- 胸痛常見疾病及診斷
- 班主任六一匯報工作總結
- 沖管操作與感染防控要點
- 妊高征的急救處理
- 中醫外科疾病診療概要
- 事故隱患內部報告獎勵制度模板三
- 港股6月IPO火熱給港股投資帶來更多選擇
- 國開2023秋《漢語通論》期末大作業題目二參考答案
- 寧波市高一數學試卷-含答案
- 水站運維服務投標方案(技術標)
- 醫院培訓課件:《自由體位在產程中的應用》
- 歐洲件專用形式發票模板
- 蛛網膜下腔出血護理查房蛛網膜下腔出血教學查房課件
- 開油鍋紅袖章制度
- 鋼板倉氣力輸送粉煤灰系統安全操作規范
- 蘇繡文化課件
- 暑期安全家長會PPT模板
- 2022年佛山南海區圖書館招聘考試真題及答案
評論
0/150
提交評論