




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、ARMA模型在語音信號線性預測分析中的應用摘要:語音信號是一種典型的非平穩隨機信號,對語音做分幀處理后可以將其看作準平穩隨機信號,從而使用處理平穩隨機信號的方法進行處理。由于語音信號的產生可以用一個有理函數式來表達,因此可以用ARMA模型來對語音信號進行建模分析。本文介紹了用于隨機時間序列的ARMA模型,線性預測分析的原理及方法,分析了ARMA模型中的AR模型在語音線性預測分析中的應用,闡述了在線性預測分析中AR模型參數求解的具體方法以及影響因素。關鍵詞:ARMA模型,AR模型,線性預測分析,語音信號,隨機信號,隨機時間序列引言語音信號是一種隨機信號,其特性及表征本質特征的參數均是隨時間而變化
2、的,是一種非平穩隨機過程,所以語音信號的數學模型中的參數應該是隨時間而變化的。雖然語音信號具有時變特性,但是它的特性隨時間變化是很緩慢的在一個短時間范圍內(一般為1030ms),其特性基本保持不變,即短時平穩性。所以可以做出一些合理的假設,將語音信號分為一些相繼的短段進行處理,在這些短段內認為語音信號特性是不隨時間變化的平穩隨機過程,然后應用平穩隨機過程的方法來處理語音信號。將語音信號分為一幀一幀來分析其特征參數(幀長取為1030ms),這樣對于整體的語音信號而言,分析出的是由每一幀特征參數組成的特征參數隨機時間序列。因為語音信號是一種隨機過程,所以在語音信號處理的很多方面可以應用隨機模型分析
3、法對語音信號進行處理分析。ARMA模型是常用的擬合隨機時間序列的模型,語音信號的線性預測分析(LPC)就是ARMA模型在語音信號處理中的一種具體應用。下文首先闡述ARMA模型,然后介紹它在語音信號線性預測分析中的應用方法。1. ARMA模型ARMA模型全稱自回歸滑動平均模型(Auto Regressive Moving Average Model),是研究平穩隨機過程有理譜的典型方法,適用于很大一類實際問題。ARMA模型頻譜分辨率高,已成為隨機信號和現代譜分析中的一種重要的參數模型。ARMA模型由博克斯(Box)和詹金斯(Jenkins)創立,也稱B-J方法,其基本思想是:某些時間序列是依賴于
4、時間的一組時間變量,構成該時序的單個序列值雖然具有不確定性,但整個序列的變化確有一定的規律性,可以用相應的數學模型近似描述。通過對該數學模型的分析和研究,能夠更本質地認識時間序列的結構和特征,達到最小均方誤差意義下的最優預測。實際應用中所遇到的很多隨機過程可以用有理傳輸函數模型很好地逼近,如圖所示,輸入激勵是均值為0、方差為的白噪聲序列,系統的傳輸函數為:。式中,是前饋(動平均)支路的系數,稱為MA系數;是反饋(自回歸)支路的系數,稱為AR系數。系統的輸出序列是被建模的離散隨機信號。該模型的輸出和輸入之間滿足差分方程:,設。輸出功率譜和輸入功率譜存在以下關系: 。 ARMA模型可以細分為以下三
5、種:AR模型、MA 模型和ARMA模型三類。因為的值僅與系統的增益有關,所以可以歸結到中去,不失一般性,可令。下面具體討論這三種模型。(一) AR模型(Auto Regression Model):如果除外其它的MA系數都等于零,則,這種模型稱為p階自回歸模型或簡稱為模型,其傳輸函數為,模型的輸出功率譜密度為,這是一個全極點模型。在模型中,系統的輸出僅與白噪聲序列的當前值和的p個過去值有關。(二) MA模型(Moving Average Model):如果除外其它的AR系數都等于零,則,這種模型稱為q階滑動平均模型或簡稱為模型,其傳輸函數為,模型的輸出功率譜為,這是一個全零點模型。在模型中,系
6、統的輸出僅與白噪聲序列的當前值和的q個過去值有關。(三) ARMA模型:設,其它的和不全為零,則,這種模型稱為自回歸滑動平均模型或簡稱為,這是一個零極點模型。AR模型和MA模型是ARMA模型的特例,模型是由模型經過q=0退化而來,模型是由模型經過p=0退化而來。Wold分解定理闡明了上述三種模型之間的聯系。該定理認為:任何廣義平穩隨機過程都可以分解為一個完全隨機的部分和一個確定的部分。確定性隨機過程是一個可以根據其過去的無限個采樣值完全加以預測的隨機過程。例如,一個由純正弦信號(具有隨機相位以保證廣義平穩)和白噪聲組成的隨機過程,可以分解為一個純隨機成分(白噪聲)和一個確定性成分(正弦信號)。
7、或者可以把這種分解看成是把功率譜分解為一個表示白噪聲的連續成分和一個表示正弦信號的離散成分(具有沖擊信號的形式)。Wold分解定理的一個推論是:如果功率譜完全是連續的,那么任何的或過程都能用無限階的(p為無窮大)過程表示;同樣,任何的或過程都能用無限階的(q為無窮大)過程表示。這個定理很重要,因為如果選擇了一個不合適的模型,只要模型的階足夠高,它任然能夠比較好地逼近被建模的隨機過程。估計ARMA或MA模型參數一般需要解一組非線性方程,而估計AR模型參數通常只需要解一組線性方程組,因此AR模型的應用更廣泛。如果被估計過程是P階自回歸過程,那么用模型即能夠很精確地模擬它;如果被估計過程是ARMA或
8、MA過程,或者是高于p階的AR過程,那么用模型作為它們的模型時,雖然不可能很精確,但卻可以盡可能地逼近之,關鍵是要選擇足夠高的階。2. 線性預測的基本原理線性預測分析是語音處理中的核心技術,它在語音識別、合成、編碼、說話人識別等方面都得到了成功的應用。由于語音樣點之間存在相關性,所以可以用過去的樣點值來預測現在或未來的樣點值,即一個語音的抽樣能夠用過去若干個語音抽樣或它們的線性組合來逼近。通過使實際語音抽樣和線性預測抽樣之間的誤差在某個準則下達到最小值來決定唯一的一組預測系數。這種線性預測分析最早應用在語音編碼中,因此也常被稱為LPC(Linear Prediction Coding)。線性預
9、測的數學表達如下:用過去p個樣點值來預測現在或未來的樣點值,預測誤差,這樣就可通過在某個準則下使預測誤差達到最小值的方法來決定惟一的一組線性預測系數。下面將線性預測分析和語音信號的數學模型聯系起來。根據人的發聲器官的特點和語音產生的機理,可以將語音生成系統分成3個部分,在聲門(聲帶)以下,稱為“聲門子系統”,它負責產生激勵振動,是“激勵系統”;從聲門到嘴唇的呼氣通道,是“聲道系統”;語音從嘴唇輻射出去,所以嘴唇以外是“輻射系統”;語音信號的數學模型如圖所示,由準周期脈沖(在濁音語音期間)或白噪聲(在清音語音期間)激勵一個線性時不變系統(聲道)所產生的輸出作為語音的模型。這里,系統的輸入是語音激
10、勵,是輸出語音。模型的系統函數可以寫成有理分式的形式,式中,系數、及增益因子G是模型的參數。顯然,這是一個ARMA模型,p、q是選定的模型的階數。當同時含有零點和極點,此時系統模型即為自回歸滑動平均模型,是一種一般的模型;當上式中的分子多項式為常數,即,為全極點模型,此時模型的輸出只取決于過去的信號值,模型成為自回歸模型;如果上式中分母多項式為1,即,為全零點模型,此時的系統模型成為滑動平均模型,模型的輸出只由模型的輸入來決定。實際上語音信號處理中最常用的是全極點模型,這是因為:(1)如果不考慮鼻音和摩擦音,那么語音的聲道傳遞函數就是一個全極點模型;對于鼻音和摩擦音,細致的聲學理論表明,其聲道
11、傳遞函數既有零點也有極點,但這時如果模型的階數p足夠高,可以用全極點模型來近似表示零極點模型,即。(2)對全極點模型做參數估計是對線性方程的求解過程,而若模型中含有有限個零點,則是解非線性方程組,實現起來非常困難。采用全極點模型,輻射、聲道以及聲門激勵的組合譜效應的傳輸函數為,式中,p是預測器階數,是預測器系數, G是聲道濾波器增益,用于控制系統輸出序列的幅度大小。由此,語音信號的抽樣序列和激勵信號序列之間的關系可用差分方程來表示:,即語音樣點間有相關性,可以用過去的樣點值預測未來樣點值。對于濁音,激勵是以基音周期重復的單位沖激,對于清音,是穩衡白噪聲。 在信號分析中,模型的建立實際上是由信號
12、來估計模型參數的過程。因為信號是實際客觀存在的,用模型表示它不可能是完全精確的,總是存在誤差。且預測階數p無法事先確定,可能選的過大或者過小,況且信號是時變的。因此求解模型參數的過程是一個逼近過程。根據前面介紹的ARMA模型的基本原理可知,當預測階數p(即的階p)足夠高時,模型就能夠很好地逼近被建模的語音信號。 在模型參數估計程中,把如下系統稱為線性預測器:。式中稱為線性預測系數。從而,p階線性預測器的系統函數為,預測誤差為。線性預測分析要解決的問題是:給定語音序列(鑒于語音信號的時變特性,LPC分析必須按幀進行),使預測誤差在某個準則下最小,求預測系數的最佳估值,這個準則通常采用最小均方誤差
13、準則。這樣,將參數解卷問題歸結為估計預測器階數p和各個系數的過程。如果s(n)是由全極點模型產生的話,那么最佳預測階數p、最佳預測系數等于該全極點模型的參數。如果模型階數是已知的,那么可以設置預測階數p,進一步計算使均方預測誤差達到最小時的一組預測系數,就可求出模型參數。如果模型階數不確定,可以觀察均方最小預測誤差隨p的變化規律,從而確定階數。在確定了階數p以后,下面具體推導線性預測方程。把某一幀內的短時平均預測誤差定義為。顯然,越接近于零,線性預測的準確度在均方誤差最小的意義上為最佳。為使最小,對 求偏導,并令其為0,有。上式表明采用最佳預測系數時,預測誤差與過去的語音樣本點正交。由于語音信
14、號的短時平穩性,要分幀處理(10-30ms),對于一幀從n時刻開窗選取的N個樣點的語音段,記為,則有:所以。顯然,如果能找到一種有效的方法求解這組包含p個未知數的p個方程,就可以得到在語音段上使均方預測誤差為最小的預測系數。為求解這組方程,必須首先計算出,一旦求出這些數值即可按上式求出預測系數。因此從原理上看,線性預測分析是非常直觀的。然而,的計算及方程組的求解都是十分復雜的,因此必須選擇適當的算法。另外,最小均方預測誤差為,再考慮及,可得。由此可見,最小預測誤差由一個固定分量和一個依賴于預測器系數的分量組成。3. 線性預測方程組的求解在LPC分析中,對線性預測方程組的求解,有自相關法和協方差
15、法兩種經典解法,另外還有效率較高的格型法等。下文著重介紹自相關法。設從n時刻開窗選取N個樣點的語音段 ,即只用語音樣本點分析該幀的預測系數。對于語音段,它的自相關函數為。自相關函數是偶函數,且的大小只與 有關。因此,可以定義為。結合可得: 。把上式展開寫成矩陣形式:這個方程叫做Yule-Walker方程,方程左邊的矩陣稱為托普利茲(Toeplitz)矩陣,它是以主對角線對稱的,而且其沿著主對角線平行方向的各軸向的元素值都相等。這種Yule-Walker方程可用萊文遜-杜賓(LevinsonDurbin)遞推算法來高效地求解。下面利用Durbin快速遞推算法求解上述方程組。如果把上面的矩陣形式簡
16、寫為,求解就是對自相關矩陣求逆。一般Toeplitz矩陣是非奇異矩陣,它的逆矩陣存在,則,其中上標p代表階數,中的i代表p階全極點模型系數標號。這樣,對于p+1階模型參數的估值,則有,其中, 是列矢量的倒置,是列矢量的轉置。由此可得:將上式分為上下兩部分運算,相應的運算式為:,令,則上兩式為:。由于是托普利茲矩陣,從可以導出,相應下面兩式成立:將兩邊乘以,得到: (a)將上式代入和,得到,將其代入,解出: (b) (c)上面(a)、(b)、(c)三式是從遞推出的遞推公式。式(c)的分母等于,它等于p階最佳線性預測反濾波余數能量。與的遞推關系為。歸納起來:因此,Durbin算法從零階預測開始,此
17、時,p=0,,可以逐步遞推出一直到最后用確定增益G值。這說明激勵信號正比于誤差信號,其比例常數等于模型增益G。這就是p階線性預測快速遞推算法的過程。在運算過程中出現的各階預測系數的最末一個值被定義為偏相關系數 。完整的遞推過程總結如下:1),2) 3)4)5),if , go to (1)6)顯然,在Durbin算法中,起到很關鍵的作用,它也是格型網絡的基本參數,稱為反射系數。4. LPC譜估計LPC系數是線性預測分析的基本參數,可以把這些系數變換為其他參數,以得到語音的其他替代表示方法。當求出一組預測器系數后,就可以得到語音產生模型的頻率響應,即:因此在共振峰頻率上其頻率響應特性會出現峰值。
18、所以線性預測分析法又可以看作是一種短時譜估計法。其頻率響應即稱為LPC譜。也就是序列 的傅立葉變換的倒數。它的對數功率譜為:用表示模型的頻率響應、(信號譜)表示語音信號的傅立葉變換、 表示語音信號的功率譜。可以證明如果信號s(n)是一個嚴格的p階AR模型,則可以滿足。但事實上,語音信號并非是嚴格的AR模型,而應該是ARMA模型。因此,可用一個AR模型來逼近ARMA模型,即。式中p為H(z)的階數。雖然時,但是不一定存在,因為H(z)的全部極點在單位圓內,而卻不一定滿足這個條件。LPC譜估計具有一個特點:在信號能量較大的區域即接近譜的峰值處,LPC譜和信號譜很接近;而在信號能量較低的區域即接近譜
19、的谷底處,則相差比較大。這個特點對于呈現諧波結構的濁音語音譜來說,就是在諧波成分處LPC譜匹配信號譜的效果要遠比諧波之間好得多。LPC譜估計的這一特點實際上來自均方誤差最小準則。從以上討論我們知道如果p選得很大,可以使精確地匹配于,而且極零模型也可以用全極點模型來代替,但卻增加了計算量和存儲量,且p增加到一定程度以后,預測平方誤差的改善就很不明顯了,因此在語音信號處理中,p一般選在814之間,此時就可以對絕大多數語音信號的聲道模型取得足夠近似的逼近。LPC系數可以表示整個LPC系統沖激響應的復倒譜。設通過線性預測分析得到的聲道模型系統函數為,其沖激響應為h(n),設表示h(n)的復倒譜,則有。
20、LPC復倒譜由于利用了線性預測中聲道系統函數H(z)的最小相位特性,避免了相位卷繞問題;而且LPC復倒譜的運算量小,它僅是用FFT求復倒譜時運算量的一半;又因為當p時,語音信號的短時復頻譜滿足,因而可以認為包含了語音信號頻譜包絡信息,即可近似把當作s(n)的短時復倒譜,來分別估計出語音短時譜包絡和聲門激勵參數。在實時語音識別中也經常采用LPC復倒譜作為特征矢量。5. 影響LPC的因素要使模型的假定較好地符合語音產生模型,主要有兩個因素要考慮:首先是模型的階數p要與共振峰個數相吻合,其次是聲門脈沖形狀和口唇輻射影響的補償。通常一對極點對應一個共振峰,10kHz采樣的語音信號通常有5個共振峰,取p=10,對于8kHz采用的語音信號可取p=8,此外為了彌補鼻音中存在的零點以及其他因素引起的偏差,通常在上述階數的基礎上再增加兩個極點,即分別取p=12和p=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉林省四平市鐵西區2024-2025學年七年級下學期期末練習生物試卷(含答案)
- 財務會計專員崗位職責要求
- 幼兒園常見傳染病預防控制課件
- 財務會計年終工作總結范文(10篇)
- 土地復墾措施及其規劃設計教學課件
- 道德與法治(海南卷)(考試版A3)
- 2025年android音視頻開發面試!這么香的技術還不快點學起來Android篇-andoid視頻秒開面試
- 2025年Android事件分發機制:面試官你坐啊
- 2024-2025學年下學期高一生物滬科版期末必刷常考題之生物進化論在不斷發展
- 部編版五年級上冊第一單元《白鷺》教案
- 呼吸機霧化吸入療法護理實踐專家共識
- 金屬非金屬露天礦山及尾礦庫重大事故隱患判定標準解讀
- SMP-04-013-00 藥品受托企業審計評估管理規程
- 人工氣候室投標書
- 湖南省婁底市漣源市2023-2024學年六年級下學期期末數學試題
- 應征公民政治考核表(含各種附表)
- 2024年湖南省中考地理+生物試卷
- 【企業分拆上市問題探究文獻綜述5800字】
- 腫瘤隨訪登記工作以及管理
- 醫院新技術開展總結及整改措施
- 國家開放大學-法學專業-2023年秋季《法律文化》形成性考核作業答案
評論
0/150
提交評論