數字音視頻處理 課件 第6章 數字音頻處理技術_第1頁
數字音視頻處理 課件 第6章 數字音頻處理技術_第2頁
數字音視頻處理 課件 第6章 數字音頻處理技術_第3頁
數字音視頻處理 課件 第6章 數字音頻處理技術_第4頁
數字音視頻處理 課件 第6章 數字音頻處理技術_第5頁
已閱讀5頁,還剩180頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第6章

數字音頻處理技術6.1數字信號處理基礎6.2語音信號產生模型6.3語音信號合成的基本方法6.4語音識別的基本技術和方法6.5本章小結

6.1數字信號處理基礎

6.1.1線性和時不變離散時間系統(簡稱離散系統)分為線性時不變系統、線性時變系統、非線性時不變系統和非線性時變系統四類。其中最重要、最常用的是線性時不變系統,這是因為很多物理過程都可以用這類系統來表征,且其在數學上便于表示,在理論上便于分析。

離散系統中兩個重要的特性是線性和時不變。線性系統的特點是疊加信號的輸出等于各自輸出之和,即輸入信號x1(n)+x2(n)的輸出信號為y1(n)+y2(n),并且線性系統輸出值的大小正比于輸入信號的幅度,即輸入信號ax(n)對應的輸出信號為ay(n)。綜合這些性質,對于線性離散系統,輸入信號ax1(n)+bx2(n)對應的輸出信號為ay1(n)+by2(n),這里a、b

是常數。

時不變的離散時間信號是指對輸入信號x(n-k),其對應的輸出為y(n-k),其中k為整數。換句話說,線性時不變離散LinearTimeinvariantDiscrete,LTD)系統在所有的時間里均表現出相同的特性。例如,輸入延遲k

個取樣,輸出也會延遲k

個取樣。

6.1.2沖激響應和卷積

1.沖激響應

沖激響應被取樣后,可以用來過濾信號。將濾波器的沖激響應值乘以信號值可以用來對信號進行濾波。濾波器沖激響應的每一個值乘以一個信號值,就得到一系列經過輸入信號調制的濾波器的沖激響應。將所有這些經過調制的沖激響應相加減便得到了最終的輸出結果。

上述運算操作實際上就是卷積過程。線性系統的輸出等于信號與系統沖激響應的卷積。卷積是一個時域內的運算過程,等效于對兩個網絡的頻率響應相乘之積求逆傅里葉變換。

2.卷積運算

一般可以將卷積理解為取樣值(代表信號在不同時刻的取樣)乘以加權系數,連續地將這些數值疊加之后產生最后的輸出。有限脈沖響應(FiniteImpulseResponse,FIR)重復取樣濾波器就是一個很好的例子,一組取樣值與描述沖激響應的系數相乘、疊加之后輸出。在時域中可以將其理解為輸入的時間信號與時域濾波器沖激響應的卷積。

例如,理想低通濾波器的頻率響應可以由等效時域函數sin(x)/x

的沖激響應的系數獲得,輸入信號和這些系數的卷積就是濾波器的輸出信號。一般而言,若有兩個序列f1(k)和f2(k),其卷積為

1.拉普拉斯變換

拉普拉斯變換用于分析連續時間信號和頻率信號,它將時域函數x(t)(t∈[0,+∞))變換為頻域函數

X(s)。拉普拉斯變換的形式為

拉普拉斯變換在模擬設計中非常有用。

2.傅里葉變換

傅里葉變換是一種特殊的拉普拉斯變換,它將時域函數x(t)映射為頻域函數

X(jω),其中,X(jω)描述了信號x(t)的頻譜。傅里葉變換的形式為

當s=jω時,這個等式與拉普拉斯變換是一樣的。當實部s=0時,拉普拉斯變換等同于傅里葉變換。傅里葉級數是傅里葉變換的一種特殊情況,它對應周期性的時間信號。

3.Z變換

Z變換在分析時域離散信號時起著重要的作用。在時域連續系統理論中,拉普拉斯變換可以被看成傅里葉變換的一種推廣;在時域離散系統中,Z變換可以看成離散傅里葉變換(DiscreteFourierTransform,DFT)的一種推廣。當z=ejω

時,Z變換等同于傅里葉變換,DFT是Z變換的特例。序列x(n)的Z變換定義為

式中,z是復變量;z-1代表一個單位延遲。逆Z變換可以利用積分定理推導出。

圖6-1所示為連續時間信號及其對應的傅里葉變換和拉普拉斯變換之間的轉換關系,圖6-2所示為離散時間信號及其對應的離散傅里葉變換和Z變換之間的轉換關系。

圖6-1連續時間信號及其對應的傅里葉變換和拉普拉斯變換之間的轉換關系

圖6-2離散時間信號及其對應的離散傅里葉變換和Z變換之間的轉換關系

6.1.4離散時間傅里葉變換(DTFT)與離散傅里葉變換(DFT)

離散時間序列信號的傅里葉變換強調只在時間域離散,而頻譜函數是連續的,通常稱為序列的離散時間傅里葉變換。對模擬信號在時域內進行采樣的結果是頻域內頻譜的周期延拓。也就是說,只要輸出離散時間序列信號的頻譜是周期函數,就可以用傅里葉變換表示,因此一個序列x(n)的DTFT定義為

式中,X(ejω)是序列x(n)的頻譜函數。

由此可見,X(ejω)是以2π為周期的連續函數,離散信號x(n)的傅里葉變換產生了連續譜,計算起來很困難。為了便于計算機以數字運算方法實現傅里葉變換,在頻域上對X(ejω)進行均勻采樣,當取樣點數為

N

時,N

點的DFT可以表示為

式中,X(k)描述了信號在頻域N

個等間距點的幅度。

6.2語音信號產生模型6.2.1語音信號產生機理肺部將空氣排出形成氣流。空氣流過緊繃的聲帶時,聲帶將周期性地開啟和閉合產生張弛振動。聲帶開啟時,空氣流從聲門噴射而出,形成脈沖;聲帶閉合時,相當于脈沖序列處于間歇期。因此,在這種情況下聲門處將產生一個類似準周期性脈沖序列的空氣流,該空氣流經過聲道后最終從嘴唇輻射出聲波,這便是“濁音”。空氣流過完全舒展開的聲帶時,空氣流將不受影響地通過聲門。

空氣流通過聲門后,根據聲道的收縮情況會產生兩種不同的情況:一種情況是,由于聲道的某個部位的收縮而形成了一個狹窄的通道,此時空氣流將以高速沖過收縮區并在附近產生空氣湍流,這種空氣湍流通過聲道后便形成“摩擦音”或“清音”;另一種情況是,空氣流過完全閉合的某個部位時,便在此處形成空氣壓力,當閉合點突然開啟時,氣壓將快速釋放并在經過聲道后形成“爆破音”。

由此可見,語音是由肺部排出的空氣流激勵聲道后從口鼻輻射出來而產生的。不同的激勵源會產生三種不同類型的語音,即濁音、清音和爆破音。濁音的激勵源是位于聲門處的準周期脈沖序列,清音的激勵源是位于聲道中某個收縮區域的空氣湍流,爆破音的激勵源則是位于聲道某個閉合點處建立起來的突變氣壓。

當聲音由上述三種激勵方式產生出來以后,便順著聲道進行傳播,此時可將聲道看作一個具有某種諧振特性的腔體。腔體的一組諧振點稱為共振峰,共振峰及其帶寬取決于聲道的形狀尺寸,這些不同位置及寬度的共振峰決定了聲道的頻譜特性。而輸出氣流的頻率特性要受到聲道共振特性的影響。聲門脈沖序列具有豐富的諧波成分,這些頻率成分與聲道的共振峰之間相互作用并最終影響語音的音質。共振峰頻率與聲道傳遞函數極點相對應。共振峰頻率由低到高排列為第一共振峰、第二共振峰……相應的頻率用f1、f2……表示。采用盡可能多的共振峰有助于精確描述語音,但在實際應用中,一般采用最重要的前三個共振峰。

6.2.2語音信號產生的數字模型

語音信號模型通常是由聲門脈沖模型、聲道模型和輻射模型等組成的。聲門脈沖模型濾波器G(z)使濁音的激勵信號具有聲門氣流脈沖的實際波形。對聲門波形的頻率分析表明,其幅度頻譜按每倍頻12dB的速率遞減。如果令

式中,g1、g2

都為接近于1的常數,那么由此生成的濁音激勵信號頻譜將接近聲門氣流脈沖的頻譜。

可以利用聲道模型V(z)來模擬聲道的傳輸函數,把實際聲道視為一個變截面聲管,根據流體力學的方法可以導出,在大多數情況下,聲道傳輸函數是一個全極點函數。因此,V(z)可以表示為

式中,α0=1,αi

為實數。

將截面積連續變化的聲管近似為p

段短聲管的串聯,且每段短聲管的截面積近似不變,則p

為全極點濾波器的階,p

值越大,模型的傳輸函數與聲道實際傳輸函數的吻合程度越高。一般地,p=8~12就能滿足實際應用要求。若p

為偶數,則V(z)一般有p/2對共軛極點rkexp±(jωk),k=1~p/2。每個ωk

分別與語音的各個共振峰相對應。

輻射模型R(z)與口唇有關,R(z)一般可以表示為R(z)=(1-rz-1),r≈1(單零點傳遞函數)。

綜合考慮聲門激勵、聲道和嘴唇輻射影響就得到圖6-3所示的語音信號產生的數字模型。這就是說,語音信號可看成激勵信號激勵一個線性系統H(z)而產生的輸出,其中,H(z)是由聲道模型V(z)與口唇輻射模型R(z)相級聯得到的,即

對于濁音而言,我們還可以把聲門脈沖的影響也反映到傳遞函數中,即

圖6-3語音信號產生的數字模型

上述語音產生模型的基本思想起源于20世紀30年代Duddley發明的聲碼器,只是當時還沒有離散線性系統的成熟理論,而是采用濾波器組頻譜分析器來粗略地估計系統的頻譜響應。但其基本思想是將激勵與系統相分離,使語音信號解體來分別進行描述,而不是直接研究信號波形本身的特性,這是導致語音信號處理技術飛速發展的關鍵。

6.3語音信號合成的基本方法

6.3.1概述語音合成(SpeechSynthesis)是由人工制作出語音的技術。它是傳統的人機語音通信系統的一個重要成分,語音合成能夠賦予機器“人工嘴巴”的功能,其目標是讓機器可以像人那樣說話。

1.波形合成法

波形合成法通常有兩種實現方式。一種是波形編碼合成法,它和語音編碼中的波形編解碼方法相似,這種方法存儲待合成語音的發音波形或將波形編碼壓縮后進行存儲,在重放時再解碼存儲的波形。這種語音合成方法僅僅用于語音存儲及重放。波形編碼合成最簡單的方法就是直接進行A/D轉換以及D/A轉換,或稱為PCM波形合成法。

但是用波形編碼合成法合成出的語音不可能有很大的詞匯量,因為該方式所需的存儲空間很大,盡管可以借助波形編碼(如ADPCM、APC等)節省一些存儲量空間。另外一種波形合成法是波形編輯合成法,這一方法借助波形編輯技術來進行語音合成。它存儲適當的語音單元作為音庫,合成時根據待合成語音內容選取音庫中的合成單元,然后對這些波形進行平滑、波形編輯拼接等處理后輸出所需語音。不同于規則合成的方法,這類方法不對合成語音段時所需合成單元進行大幅度的修改,通常只是簡單地對相對時長的強度進行調整。所以,波形編輯合成法必須要選擇詞、詞組、短語甚至語句這樣比較大的語音單元作為合成的基元。

2.參數合成法

參數合成法是一類較為復雜的方法,也被稱為分析合成法。它首先分析輸入語音信號,將其中的語音參數提取出來,以達到壓縮存儲量的目的。然后由提取出的參數合成語音。參數合成法一般分為發音器官參數合成、聲道模型參數合成兩種。發音器官參數合成法是通過定義聲帶、舌、唇的相關參數直接對人發音的過程進行模擬。依據發聲參數計算聲道截面積函數,從而計算聲波。但是因為人的發音生理過程復雜而且理論計算與物理模擬存在一定差別,所以合成出的語音質量目前還不理想。

聲道模型參數合成方法是根據聲

道的截面積函數或其諧振特性來合成語音的。初期語音合成系統中的聲學模型,一般基于模擬人的口腔的聲道特性來構建。其中,比較著名的有克拉特(Klatt)的共振峰(Formant)合成系統,后來又產生了基于LPC(LinearPredictiveCoefficient,線性預測系數)、LSP(LineSpectralPairs,線性頻譜對)和LMA(LogMagnitudeApproximate)等聲學參數的合成系統。

這些方法用來建立聲學模型的過程通常分為三步:首先,錄制涵蓋人發聲過程中所有可能出現的讀音;其次,從這些聲音中提取聲學參數,整合成一個完善的音庫;然后,在發音過程中,根據待合成語音選擇合適的聲學參數;最后,根據韻律模型給出的韻律參數,使用合成算法生成語音。參數合成方法的優勢在于其音庫都比較小,而且整個系統能夠適應的韻律特征范圍較廣。這種合成方法生成語音的比特率低,音質適中,但是合成的語音不夠自然和清晰。

3.規則合成法

規則合成法是一種高級的合成方法,它通過語音學規則產生語音。規則語音合成系統不僅存儲了最小語音單位的聲學參數,而且還保存了由音素組成音節、由音節組成詞、由詞組成句子以及控制音調、輕重音等韻律的各種規則。這種方法的詞匯表不用經過事先確定,而是根據所提供的待合成語音,由合成系統利用上述各種規則自動地把它們變換為連續的語音聲波。

6.3.2共振峰合成法

參數合成法將聲源參數、清音/濁音判別、聲道參數和能量按照時間順序連續地輸入參數合成器,然后由參數合成器輸出合成的語音。它從本質上講是語音參數分析方法的逆過程。這里只介紹兩種主要的參數合成法:共振峰合成法和LPC合成法,它們都是較為流行的語音合成技術。其中,LPC合成法具有實現簡單等優點,而共振峰合成法雖然比LPC合成法復雜,但它可以產生較高的合成音節。

共振峰合成法根據諧振腔模型來模擬聲道。它借助帶寬及共振峰頻率等腔體的諧振特性來構建共振峰濾波器。不同音色的語音有著各不相同的共振峰模式,需要根據不同的帶寬及共振峰頻率構建多個共振峰濾波器。共振峰合成法通過組合不同的共振峰濾波器來模擬聲道的傳輸特性,同時對激勵聲源發出的信號進行調制,輸出合成語音。這就是共振峰合成器的實現原理。在實際實現過程中,共振峰濾波器的數目以及組合的形式是固定不變的,相關參數則根據每一幀輸入語音來進行適當的調整,這樣就能表征不同共振峰模式下音色各異的語音。

圖6-4為共振峰合成器的系統模型。可以看出,首先由共振峰濾波器模擬聲道傳輸特性對接收到的激勵聲源進行調制,然后經由輻射效應輸出合成語音。因為發聲時器官是處于運動狀態的,所以共振峰合成器的系統參數也應當是隨著時間而發生變化的。通常根據當前幀輸入語音的變化來對系統參數進行修正。

圖6-4共振峰合成器的系統模型

6.3.3線性預測編碼合成法

線性預測編碼(LPC)合成法是一種較為實用和簡單的語音合成方法,由于低成本、低復雜度和低數據率而受到較多的關注。

圖6-5給出了LPC語音合成器的實現框圖。

圖6-5LPC語音合成器的實現框圖

線性預測合成的形式有兩種。一種是直接用預測器系數構成的遞歸型LPC語音合成濾波器,其結構如圖6-6所示,用這種方法定期地改變激勵參數和預測器系數就能合成出語音。在一個語音樣本的合成過程中,需要進行p

次加法以及p

次乘法。該結構具有簡單和直觀的優點,合成的語音樣本為

式中,ai

為預測器系數;G

為模型增益;u(n)為激勵;s(n)為合成語音樣本;p

為預測器階數。

另一種合成的形式是采用反射系數構成的格型合成濾波器,它的合成語音樣本為

式中,G

為模型增益;u(n)為激勵;ki

為反射系數;bi(n)為后向預測誤差;p

為預測器階數。

圖6-6-用預測器系數構成的遞歸型LPC語音合成器

6.3.4基音同步疊加法

PSOLA是一種修改合成語音韻律的算法,它主要用于波形編輯語言合成技術。音高、音長和音強是決定語音波形韻律的三個主要時域參數。音高的大小體現波形的基音周期,對于大多數通用語言,音高僅體現不同的語氣。由于漢語的音高曲線構成聲調,聲調有辨義作用,因此對漢語的音高修改比較復雜。對穩定的波形段來說,音長的調節是比較容易實現的,僅僅需要按照基音周期為單位進行加減即可,但由于語音基元本身的復雜性,實際中常使用特定的時長縮放法。改變音強只需要加強波形即可,但對一些重音有變化的音節,幅度包絡可能也需要改變。

基音同步疊加技術一般有時域基音同步疊加(TD-PSOLA)、頻域基音同步疊加(FD-PSOLA)和線性預測基音同步疊加(LPC-PSOLA)三種實現方式。概括起來說,用PSOLA算法實現語音合成時主要有三個步驟,分別為基音同步分析、基音同步修改和基音同步合成。

1.基音同步分析

同步標記被用來準確反映各基音周期的起始位置,它們是與合成單元濁音段的基音保持同步的一系列位置點。對語音合成單元實施同步標記設置是基音同步分析的主要功能。

PSOLA技術對短時信號的時間長度選擇以及疊加和截取都是根據同步標記進行的。濁音段信號有基音周期,清音段信號則屬于白噪聲,這兩種類型需要區別對待。

以語音合成單元的同步標記為中心,選擇適當長度(一般取兩倍的基音周期)的時窗對合成單元進行加窗處理,獲得一組短時信號xm(n),即

式中,tm

為基音標注點;hm(n)一般取漢明窗,窗長大于原始信號的一個基音周期,因此窗間有重疊。窗長一般為原始信號基音周期的2~4倍。

2.基音同步修改

基音同步修改借助減少、增加合成單元標記間隔來改變合成語音的音頻;借助刪除、插入合成單元同步標記來改變合成語音的時長。在修改時使用一套新的合成信號對短時合成信號序列進行基音標記同步。在TDPSOLA方法中,短時合成信號由相應的短時分析信號直接復制而來。若短時分析信號為x(ta(s),n),短時合成信號為x(ts(s),n),則有

式中,ts(s)為合成基音標記;ta(s)為分析基音標記。

3.基音同步合成

基音同步合成是短時合成信號疊加合成的。借助對短時合成信號的減少或增加來實現合成信號時長的變化。若信號基頻發生了變化,就需要先將短時合成信號變換成滿足需求的短時合成信號,然后再進行合成操作。

目前有很多基音同步疊加合成方法。以采用原始信號譜和合成信號譜差異最小的最小平方疊加合成法(Least-squareOverlap-addedScheme)為例,最終合成的信號為

利用式(6-18)和式(6-19),可以通過壓縮和伸長原始語音與基音同步標志tm

之間的相對距離,靈活地降低和提高合成語音的基音。同樣還可以通過刪除和插入音節中基音同步標志來改變合成語音音長,最終得到一個新的合成語音的基音同步標志tq,此外還能夠借助改變式(6-18)中能量因子aq

來對語音中不同部位的合成語音的輸出能量進行調整。圖6-7為同步疊加算法改變語音的基頻和時長。

圖6-7同步疊加算法改變語音的基頻和時長

6.3.5文語轉換系統

文語轉換(TextToSpeech,TTS)是指通過一系列硬軟件對文本文件進行轉換后,借助電話語音系統或者計算機等輸出語音的過程,同時盡量保證合成出的語音具有較好的可懂度和自然度。文語轉換系統能夠提供一個良好的人機交互界面,能夠在不同的智能系統中得到應用,如自動售票系統和信息查詢系統。它也能夠輔助殘疾人的交流,如用于聽障人士的代言系統或者用于視障人士的閱讀設備。此外,文語轉換系統還能夠應用于通信設備以及各種數字產品中,如PDA和手機等。

成功的文語轉換系統應當能夠輸出清晰且自然流暢的語音,所以必須集成優秀的語音合成模塊。如果單純地對一個字的發音進行機械地連接,合成的語音將不具有足夠的自然度。發音聲調上的變化決定了輸出語音的自然度。在連續的語音流內,一個字的發音不只和它自身的發音有關系,還會被其相鄰字的發音影響。因此文語轉換系統應當先分析輸入文本,按照上下文的關系來分析每個字的發音聲調應當如何變化,然后使用得到的聲調變化參數控制語音的合成,所以,文語轉換系統還必須擁有文本分析韻律控制模塊。綜上所述,文語轉換系統的三個核心部分為文本分析、韻律控制和語音合成,其結構框圖如圖6-8所示。

圖6-8文語轉換系統的結構框圖

1.文本分析

文本分析的首要目的是讓計算機可以識別文字,同時依照文本的上下文關系對文本進行一定程度的理解,這樣就能夠了解需要發什么音和怎么發音,從而讓計算機知道文本中包含哪些音的詞、短語或者句子以及發音時應該在何處停頓和停頓多久。

文本分析過程主要包括三個步驟:

規范化輸入文本,對用戶可能出現的拼寫錯誤進行處理,并把不規范或者不能發音的字符刪除;

確定文本中詞或短語的邊界和文字的讀音,并分析文本內的姓氏、數字和特殊字符,確定多音字的讀音;

確定發音時語氣的變換及不同音的輕重方式。

最終,為了使后續模塊能夠進一步進行處理和生成對應信息,把輸入的文字轉換成計算機能夠處理的內部參數。

2.韻律控制

不同人在說話時都有著不同的語氣、停頓方式、聲調和發音長短等,這些都屬于韻律特征。基頻、音強和音長等韻律參數能夠影響這些韻律上的特征。

3.語音合成

在文語轉換系統中,采用波形拼接的語音合成方法被廣泛用于合成語音模塊,其中最為典型的是前面介紹過的基音同步疊加(PSOLA)算法。用PSOLA算法可以直接對存儲于音庫的語音進行拼接。

但是,這種方法也存在著一些問題,主要體現在兩個方面:首先,合成音庫一般相當龐大,會占用大量的儲存空間,不利于文語轉換系統在掌上電腦或其他小型終端設備上的推廣;此外,相鄰聲音單元的譜之間存在不連續性,容易導致合成音質的下降。現在處理這些問題的一個較好途徑是把參數語音合成方法和基于規則的波形拼接計數結合在一起。這種融合產生了許多新的模型,如基因同步的Sinusoidal模型。這些模型能進一步提高合成語音的質量。

6.4語音識別的基本技術和方法

6.4.1概述

1.語言識別的分類語音識別(SpeechRecognition)主要是指讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內容,分析語音中的信息,并根據這些信息完成人的意圖。語音識別是一門涉及面廣泛的交叉學科,它與通信、計算機、數理統計、語音語言學、神經生理學、信號處理、人工智能和神經心理學等多個學科都有著密切的關系。

按照不同的分類角度,語音識別有以下幾種分類方法:

(1)根據需要識別的單位,把語音識別劃分成以下幾類:

孤立單詞語音識別,即識別的單詞之間有一定的停頓。

選詞語音識別,即將某個或某幾個單詞從連續語音中識別出來。

連續語音識別,即待識別的單詞之間不存在停頓。

語音理解,即識別語音并借助語言學的知識來推斷出所識別語音的具體含義。

(2)根據需要識別的詞匯量劃分。每個語音識別系統中都包含一個詞匯表,系統僅能對包含在詞匯表中的詞條進行識別。根據能夠識別詞匯的數量劃分,有小詞匯(10~50個)、中詞匯(50~200個)、大詞匯(200個以上)等孤立詞識別。在任何情況下,語音識別系統對輸入語音的識別率都會隨著詞匯表中單詞量的增加而降低。在語音識別研究領域中,對大詞匯量下連續語音的識別是最為困難的,這也是目前國內外研究人員投入時間和精力最多的課題。

(3)根據講話人的范圍劃分為三種不同的語音識別系統,即單個特定講話人、多個講話人(即有限的講話人)和與講話者無關(即無限的說話人,也就是無論是誰的聲音都能識別)。針對單個特定講話人的語音識別系統僅對特定人的語音進行識別,其他兩種語音識別系統為非特定人的語音識別。對于特定人的語音識別系統,在系統投入使用前需要借助輸入的大量用戶發音數據對系統進行訓練,對非特定人的語音識別系統則無需由用戶輸入大量用于系統訓練的發音數據。

2.常見的語音識別方法

常見的語音識別方法有模板匹配法、隨機模型法和概率語法分析法。這三種語音識別方法都以在最大似然決策上建立的貝葉斯(Bayes)判決作為基礎,它們的不同之處在于具體的實現過程。

1)模板匹配法

語音識別系統在早期多數是根據簡單的模板匹配原理來構造的。它們屬于針對特定人的小詞匯量孤立詞識別系統。在系統訓練過程中,由用戶把詞匯表內的每個詞說一遍,同時把發音的特征矢量看成模板(Template),存放到模板庫中。在語音識別過程中,把待識別語音的特征矢量序列與模板庫中的每一個模板逐個比較,和輸入語音相似度最高的模板即為識別結果。

2)隨機模型法

隨機模型法是當前語音識別領域的主流研究方向。該類方法中最具代表性的是基于隱馬爾可夫模型(HMM)的語音識別方法。這種方法根據HMM的概率參數來進行似然函數的估計和判決,從而獲得識別的結果。可以把語音信號看作一個隨機過程,它在足夠短的時間段上有著近似于穩定的信號特性。可以把總的語音信號看成依時間順序從相對穩定的一個特性過渡到另一個特性。HMM根據概率統計方法去描述這種時變過程,在這個模型中,從一個狀態轉移到另外一個狀態的可能性決定于當前狀態的轉移概率。

3)概率語法分析法

概率語法分析法通常在詞匯量范圍較大的連續語音識別系統中使用。通過對不同語音的語譜及其變化的研究,語音學家們發現,雖然不同人在發出同一語音時,對應的語譜及其變化有著種種的不同,但是總存在一定的共同特征來區別它們和其他語音。這些用于區別不同語音的特征被稱為“區別性特征”。另一方面,人類語言受著語義、語法等規則的約束,在語音識別的過程中,充分應用了對話環境的相關信息和這些約束。

概率語法分析法能夠基于大規模的語料庫進行學習,從而捕捉到自然語言中的統計規律和概率分布,提高分析的準確性。它可以處理自然語言中的歧義和不確定性,通過計算各種可能的分析結果的概率來進行解析,從而得到更全面的語法分析結果。但是概率語法分析法的性能受限于訓練數據的質量和規模,如果語料庫不充分或不具代表性,可能導致模型的泛化能力和準確性下降。

6.4.2語音識別原理

圖6-9給出了基于模式匹配原理的語音識別系統的框圖。語音識別系統從本質上講是一種模式識別系統,因此它的基本結構和一般模式識別系統一樣,主要包括特征提取、距離測度以及參考模式庫等基本單元。同時,因為語音識別系統所需處理的是結構復雜、內容豐富的語言信息,所以比一般的模式識別系統更為復雜。

1.預處理

1)反混疊濾波

反混疊濾波器主要有兩個作用:一是抑制電源干擾(50Hz或60Hz);二是抑制輸入信號各頻率分量中頻率超出fS/2的所有分量(fS

為信號采樣率),防止混疊干擾。因此,反混疊濾波器必須為上、下截止頻率分別為fH

和fL

的帶通濾波器。對于目前的絕大多數語音編碼器,fH3400Hz,fL=60Hz~100Hz,fS=8kHz。

事實上,反混疊濾波、A/D、D/A和平滑濾波等功能可用一塊專門的集成電路芯片獨立完成,實現起來很簡便,這里不再贅述。

2)音頻信號的采樣與量化

數字信號是指時間和幅度均為離散的信號。為了把模擬語音信號變換成數字信號,必須經過采樣和量化兩個步驟。圖6-10給出了語音信號數字化的一般框圖。圖6-10語音信號數字化的一般框圖

所謂采樣,就是在時間域上對模擬信號進行等間隔取樣,其中兩個采樣點之間的間隔稱為采樣周期,它的倒數稱為采樣頻率。根據采樣定理,當采樣率大于信號最高頻率的兩倍時,在采樣過程中就不會丟失信息,并且可以用采樣后的信號重構原始信號。

從圖6-11中可以看出,中點上升量化器的輸出沒有零電平,而是在正區間產生正輸出電平,在負區間產生負輸出電平;中點水平量化器在零輸入區間有零電平輸出,通常使用均勻分布描述量化范圍和電平。一個均勻量化器必須滿足下面兩個條件:

圖6-118電平均勻量化器特征

圖6-118電平均勻量化器特征

從該例子中我們可以看到,均勻量化器只有兩個參數:電平數目N

和量化階距Δ。通常取電平數目

N=2B,以便最有效地利用B

位二進制碼。另外,Δ和B

必須一起選擇以覆蓋輸入樣值的幅度范圍。

假定輸入

x(n)≤Xmax,那么有(假設x(n)的概率密度函數是對稱的)

3)語音信號的預加重處理

對輸入的數字語音信號進行預加重處理的目的是對語音信號的高頻部分進行加重,去除嘴唇輻射影響,增加語音的高頻分辨率。一般通過傳遞函數

H(z)=1-αz-1的一階FIR高通數字濾波器來實現預加重,其中,α為預加重系數,0.9<α<1.0。設n

時刻語音采樣值為x(n),經過預加重處理后的結果為y(n)=x(n)-αx(n-1),這里取α=0.98。圖6-12為該高通濾波器的幅頻特性和相頻特性。

圖6-12高通濾波器的幅頻特性和相頻特性

圖6-13中分別給出了預加重前和預加重后的一段語音信號及其頻譜,可以看出,預加重后頻譜在高頻部分的幅度得到了提升。

圖6-13一段語音信號預加重前和預加重后的頻譜

圖6-13一段語音信號預加重前和預加重后的頻譜

4)語音信號的分幀處理

經過預加重數字濾波處理后,接下來進行加窗分幀處理。語音信號是一種時變信號,主要分為濁音和清音兩大類。其中濁音的基音周期、清濁音信號的幅度和信道參數等都隨

時間緩慢變化。由于發音器官的慣性運動,一般認為在一小段時間里(一般為10~30ms)語音信號近似不變,即語音信號具有短時平穩性。這樣,可以把語音信號分割為一些短段來進行處理,稱為分幀。語音信號的分幀是采用可移動的有限長度窗口進行加權的方法實現的。

一般每秒的幀數約為33~100幀,具體幀數視實際情況而定。分幀雖然可以采用連續分幀的方法,但一般要采用交疊分段的方法,這是為了使幀與幀之間平滑過濾,保持其連續性。前后兩幀的交疊部分稱為幀移,幀移與幀長的比值一般取為0~1/2,圖6-14中為幀移與幀長的示意圖。

圖6-14幀移與幀長的示意圖

在加窗處理時,不同窗口的選擇將影響到音頻信號分析的結果。在選擇窗函數時,一般需要考慮窗口的形狀,即窗函數的形式。常用的窗函數有兩種,一種是矩形窗,窗函數如下:

另一種是漢明窗,窗函數如下:

這兩種窗的時域波形和幅頻特性分別如圖6-15和圖6-16所示。

圖6-15矩形窗的時域波形和幅頻特性

圖6-16-漢明窗的時域波形和幅頻特性

2.特征提取

在對語音信號進行預處理后,需要對其特征參數進行分析。特征提取是指從語音信號波形獲得一組能夠描述語音信號特征參數的過程。特征提取也稱為特征參數提取,與之相關的內容則是特征間的距離測度。特征提取是模式識別的關鍵問題,特征參數的好壞對語音識別精度有很大影響。特征的選擇對識別效果至關重要,選擇的標準應體現異音字特征間的距離應盡可能大,而各同音字間的距離應盡可能小。同時,還要考慮特征參數的計算量,應在保持比較高的識別率的情況下,盡可能選擇較少特征維數,以利于減少存儲要求和實時實現。

通常將語音信號的特征矢量分為兩種:第一種是時域上的特征矢量,對一幀語音信號內不同時域進行采樣直接組成矢量;第二種是變換域上的特征矢量,即為一幀語音信號經過某種變換后獲得的矢量。

3.距離測度

語音識別有多種距離測度,如歐氏距離及其變形的距離測度、加權了超音段信息的識別測度和似然比測度等。另外,還有主觀感知的距離測度、隱馬爾可夫模型之間的距離測度等。

4.參考模式庫

參考模式庫就是指聲學參數模板。它是借助訓練和聚類的方法,從單個講話或多個講話人的重復的語音參數中進行長時間的系統訓練然后聚類得到的。

5.訓練與識別方法

有很多語音訓練與識別的方法,如矢量量化(VectorQuantization,VQ)、動態時間規整(DynamicTimeWarping,DTW)、分

化(Fuzzy-StructuredVectorQuantization,FSVQ)、帶學習功能的矢量量化(LearningVectorQuantization,LVQ)、隱馬爾可夫模型

(HiddenMarkovModel,HMM)、模糊邏輯算法和時延神經網絡(Time-DelayNeuralNetwork,TDNN)等算法,這些方法也可以進行綜合利用。

語音識別的核心是測度估計。現在,已經存在眾多獲得模板與測試語音參數之間測度的算法,較為經典的方法有三種:

動態時間規整法:對預存的參考模式和待識別的輸入語音進行模式匹配;

隱馬爾可夫模型法:基于統計方法為依據的識別;

矢量量化法:根據信源編碼技術的語音識別。

此外,還包括一部分混合的方法,例如VQ/DTW算法、FSVQ/HMM算法等。

6.專家知識庫

專家知識庫用來存儲語言學知識。知識庫中要有詞匯、語法、句法、語義和常用詞語搭配等知識,如音長分布規則、漢語聲調變調規則、構詞規則、同音字判別規則、語義規則和語法規則等。知識庫中的知識要便于修改和擴充,針對每一種語言需要有其特定的語言學專家知識庫。

7.判決

對于輸入信號計算而得的測度,根據若干準則及專家知識,判決選出可能的結果中最優的一個并輸出,這個過程即為判決。在語音識別中,通常使用K平均最近鄰(K-NearestNeighbourhood,KNN)方法來決策,因此,選擇合適的距離測度的門限是需要解決的主要問題。不同的語種有著不同的門限值。判決結果的識別率是衡量門限值選擇是否正確的唯一標準,通常需要對門限值進行多次調整后才能取得較為準確的識別結果。

6.4.3特征表示與提取

選擇以及提取特征參數對語音識別系統非常重要,是構建系統的基礎。通常將語音信號的特征矢量分為兩種:第一種是時域上的特征矢量,即對一幀語音信號內不同時域進行采樣直接組成矢量;第二種是變換域上的特征矢量,即一幀語音信號經過某種變換后獲得的矢量。

1.時域特征表示與提取

1)短時平均能量

音頻信號的能量隨著時間的變化比較明顯,對其短時能量進行分析,可以描述幅度變化的情況。定義以n

為標識的某幀語音信號的短時平均能量En

若令h(n)=w2(n),則式(6-26)可寫為

式(6-27)表明,窗口加權的短時平均能量相當于將“語音平方”信號通過一個線性濾波器的輸出。該濾波器的單位取樣響應為h(n)。短時平均能量的方框圖如圖6-17所示。

圖6-17短時平均能量的方框圖

沖激響應h(n)的選擇或者說窗函數的選擇直接影響著短時能量的計算。常見的有矩形窗和漢明窗等,各種窗的主瓣寬度和旁瓣高度如表6-1所示。

從表6-1可知,矩形窗的主瓣寬度最小,但其旁瓣高度最高;漢明窗的主瓣最寬,而旁瓣高度最低。當矩形窗的旁瓣太高時,會產生嚴重的泄漏(Gibbs)現象,因此只能在某些特殊場合中采用。而當漢明窗旁瓣最低時,可以有效地克服泄漏現象,具有更平滑的低通特性,因此應用最為廣泛。對于同一種窗函數,主瓣寬度與窗長成反比。圖6-18給出了51點的矩形窗和漢明窗的幅頻特性。

圖6-18矩形窗和漢明窗的幅頻特性

圖6-18矩形窗和漢明窗的幅頻特性

由圖6-18(a)可以看出,這是一個具有線性“相位-頻率”特性的低通濾波器的頻率響應。它的第一個零幅值頻率位置為

式中,f

對應矩形窗的低通濾波器的歸一化截止頻率;fS=1/T

為采樣頻率;N

為窗口序列w(n)的長度。

綜上所述,無論窗口形狀如何,窗口長度

N

起決定性的作用。N越大,濾波器的通帶變窄,波形振幅變化細節不明顯,能量變得平滑;反之,N

越小,濾波器的通帶變寬,信號得不到足夠平均,也就得不到平滑的能量函數。

短時平均能量的主要用途如下:

(1)濁音的能量明顯高于清音,因此短時平均能量可以作為區分清音和濁音的特征參數。

(2)在信噪比較高的情況下,短時能量可以用于區分有/無聲音。

(3)短時平均能量還可以作為輔助的特征參數用于語音識別。

短時能量可以有效地判斷信號幅度的大小,并可用于進行有聲/無聲判定,這對音頻信號的檢測具有重要的實際意義。

短時能量中對信號進行平方運算增加了高低信號之間的差距,因此在一些應用場合不太適用。解決這個問題的簡單方法是采用短時平均幅值來表示能量的變化,其公式為

式(6-29)用加窗后信號的絕對值之和代替平方和,使運算進一步簡化。短時平均幅度的實現方框圖如圖6-19所示。

圖6-19短時平均幅度的實現方框圖

2)短時平均過零率

短時平均過零率是語音信號時域分析中的一個重要的特征參數,它是指每幀內信號通過零值的次數。對于橫軸為時間軸的連續語音信號,可以觀察到語音的時域波形通過橫軸的情況。在離散時間語音信號情況下,如果相鄰的采樣具有不同的代數符號就稱為發生了過零,并以此來計算過零的次數。單位時間內過零的次數就稱為過零率,一段長時間內的過零率稱為平均過零率。對于正弦信號,它的平均過零率就是兩倍的信號頻率除以采樣頻率,而固定的采樣頻率使得過零率在一定程度上可以反映出信號的頻譜特性。因為實際的音頻信號并不是簡單的正弦序列,所以平均過零率的表示方法不準確。

語音信號序列x(n)的短時平均過零率Zn

定義如下

式中,sgn[·]為符號函數,即

w(n)為窗口序列,計算時常采用矩形窗,窗長為N。當相鄰兩個采樣點符號相同時,sgn[x(n)]-sgn[x(n-1)]=0,沒有產生過零;當相鄰兩個采樣點符號相反時,sgn[x(n)]-sgn[x(n-1)]=2,為過零次數的2倍。因此在統計一幀(一個窗長

N

點)的短時平均過零率時,求出過零數后必須要除以2N。這樣就可以將窗函數w(n)表示為

按照式(6-30),圖6-20給出了語音信號的短時平均過零率的方框圖。圖6-20語音信號的短時平均過零率的方框圖

根據上面定義計算的短時平均過零率容易受到低頻的干擾,特別是50Hz交流干擾的影響。解決這個問題有兩種方法:

(1)進行高通或者帶通濾波,減小隨機噪聲的影響。

(2)修改上述定義,設置門限T,將過零的含義修改為跨過正負門限,門限過零率如圖6-21所示。

圖6-21門限過零率

定義式(6-30)可更改為

由式(6-33)計算的過零率具有一定的抗干擾能力。即使存在小的隨機噪聲,只要它處于正負門限間的區域,就不會產生虛假的過零數。在語音識別前端檢測時還可采用多門限過零率,可以進一步改善檢測效果。

3)短時自相關函數

自相關函數用于衡量信號自身時間波形的相似性。由前面的介紹可知,清音和濁音由于發聲機理不同,因而在波形上也存在著較大的差異。濁音的時間波形往往呈現出一定的周期性,因此波形之間具有良好的相似性;而清音的時間波形具有隨機噪聲的特性,雜亂無章,因此樣點間的相似性較差。綜上,可以用短時自相關函數來測定語音的相似特性。

對于確定性信號序列,自相關函數的定義為

對于隨機信號序列或者周期信號序列,自相關函數定義為

自相關函數R(k)具有以下一些性質:

(1)自相關函數為偶函數,即R(k)=R(-k)。

(2)若序列的周期為P,則其自相關函數的周期亦為P,即R(k)=R(k+P)。

(3)當k=0時R(0)為零滯后自相關值,其值最大,即

R(k)≤R(0)。

(4)對于確定信號,R(0)等于信號能量;對于隨機或周期信號,R(0)等于信號平均能量。

從這些性質可以看到,自相關函數相當于一種特殊情況下的信號能量,更重要的是,在周期信號的周期整數倍上,它的自相關函數可以達到最大值,這為獲取周期性信號周期提供了依據。因此可以在不考慮信號起始時間的情況下,從自相關的第一個最大值的位置來估計其周期,這個性質使自相關函數成為估計各種信號周期的一個依據。因此,如何獲得音頻信號的短時自相關函數具有重要的意義,下面就短時自相關函數展開討論。

短時自相關函數是在前面自相關函數的基礎上將信號加窗獲得的,即

式中,n

表示窗函數是從第n點開始加入。通過對上述自相關函數的分析可得,Rn(k)是偶函數,即Rn(k)=Rn(-k);Rn(k)在k=0時具有最大值,并且Rn(0)等于加窗音頻信號的能量。

如果定義

那么式(6-36)可以寫成

式(6-38)表明:序列x(n)x(n-k)經過一個沖激響應為hk(n)的濾波器濾波后得到上述的短時自相關函數,其方框圖如圖6-22所示。

圖6-22短時自相關函數的方框圖

圖6-23和圖6-24分別給出了清音和濁音的短時自相關函數,分別表示出了時域波形、加矩形窗和漢明窗后計算短時自相關函數歸一化后的結果。

圖6-23清音的短時自相關函數

圖6-24濁音的短時自相關函數

從圖6-23和圖6-24可以看出清音與濁音的短時自相關函數有以下幾個特點:

(1)短時自相關函數可以很明顯地反映出濁音信號的周期性。

(2)清音的短時自相關函數沒有周期性,也不具有明顯突出的峰值,其性質類似于噪聲。

(3)不同窗對短時自相關函數結果有一定影響。采用矩形窗時,濁音自相關曲線的周期性顯示出比漢明窗更明顯的周期性。其主要原因是,在加漢明窗后,語音段兩端的幅度逐漸下降,從而模糊了信號的周期性。

窗長對濁音的短時自相關性也有著直接的影響:一方面,由于語音信號具有變化的特性,因而要求N應盡量小;但另一方面,為了充分反映語音的周期性,又必須選擇足夠寬的窗,來保證選出的語音段包含兩個以上的基音周期。由于基音頻率分布在50~500Hz的范圍

內,8kHz采

于16~160點,那么窗長N的選擇要求

N≥1000。圖6-25所示為分別用

N=1000、N=500、N=300的矩形窗對圖6-25中的濁音段加窗。

圖6-25不同矩形窗長的短時自相關函數

短時自相關函數是音頻信號時域分析的重要參數,但是在計算短時自相關函過程中,由于乘法運算所需的時間較長,計算量較大,因此需要對自相關函數的計算過程進行簡化。實際操作時,常使用短時平均幅度差函數來代替自相關函數,從而避免乘法運算。它是基于這樣一個想法,對于一個周期為P

的單純的周期信號進行差分,有

則在k=0,±P,±2P,…時,式(6-39)將為零。即當k

與信號周期吻合時,作為d(n)的短時平均幅度值總是很小,因此短時平均幅度差函數的定義為

對于周期性的x(n),rn(k)也具有周期性。與rn(k)相反的是,在周期的各整數倍點上rn(k)具有的是谷值。由此可見,短時平均幅度差函數也可以用于基音周期的檢測,而且計算比短時自相關方法更簡單。

2.頻域特征表示與提取

1)短時傅里葉變換(STFT)的定義和物理意義

信號{x(n)}的短時傅里葉變換定義為

式中,{x(n)}為窗序列,顯然

Xn(ejω)是個二維函數,也稱為時頻函數。

w(n-m)是窗函數。不同的窗函數可以得到不同的傅里葉變換結果。在式(6-41)中,短時傅里葉變換有兩個變量,即離散時間n及連續頻率ω。若令ω=2πk/N,則可得到離散的短時傅里葉變換為

式(6-42)實際上就是

Xn(ejω)的頻率抽樣。

當頻率固定時,如ω=ωk,則

Xn(ejωk)可以看成信號經過一個中心頻率為ωk

的帶通濾波器后產生的輸出。這是因為窗序列{x(n)}通常具有低通頻率響應,而x(n)ejnωk的傅里葉變換為X(ej(ω+ωk)),這里的指數ejnωk

對x(n)的調制作用使其頻譜產生移位,即將x(n)的頻譜中對應于頻率ωk

的分量平移到零頻。因此,式(6-44)可等效為如圖6-26所示的帶通濾波器示意圖。

圖6-26-帶通濾波器

因為復數可以分解為實部和虛部,所以Xn(ejω)bn(ω)也可以用實數來運算,即

式中

實數運算方框圖如圖6-27所示。

圖6-27實數運算方框圖

圖6-28短時傅里葉變換的濾波器解釋

2)短時傅里葉變換的取樣率

短時傅里葉變換

Xn(ejω)是一維時變信號x(n)的二維(時間和頻率)表示形式,是離散時間變量n

和連續頻率變量ω的函數。為了從Xn(ejω)無失真地恢復原始語音信號x(n),基本的考慮是如何選擇Xn(ejω)在時域及頻域內的采樣率。采樣率的選取應保證Xn(ejω)不產生混疊失真。

(1)時域采樣率。

上節中介紹的短時傅里葉變換的濾波器解釋中,對于某個固定的ω

值,Xn(ejω)是[x(n)ejω]經過沖激性應為

w(n)的低通濾波器的輸出。若將

w(n)的傅里葉變換記為W(ejω),對于大多數窗函數來說,W(ejω)具有低通濾波器的特性,若

W(ejω)的帶寬為BHz,Xn(ejω)則具有與窗相同的帶寬。根據采樣定理,Xn(ejω)的時域采樣率至少為2B才不至于出現混疊現象。

大多數實際應用的窗,其帶寬B

都與fS/N

成正比例關系,即

式中,fS

為采樣率;N

為窗寬;k

為正比例常數。所以,Xn(ejω

)在時域內的取樣率應選取為

3)語音信號的重構

本節討論如何從傅里葉變換的采樣恢復原始語音信號的問題,通常稱為短時重構。圖6-29濾波器組相加法示意圖

4)窗長及形狀對STFT的影響

根據卷積定理,兩相乘序列的傅里葉變換等于各自傅里葉變換的卷積,因

此,w

(n-m)x(m)序列的標準傅里葉變換為

5)語音的語譜圖分析

能量密度譜函數Pn(ω)(或功率譜函數)是二維的非負實值函數。用時間n

作為橫坐標,ω

作為縱坐標,將Pn(ω)的值表示為灰度級所構成的二維圖像稱為語譜圖(Spectrogram)。語圖譜反映了語音信號的動態頻譜特性,在語音分析中有重要的使用價值,被稱為可視語言。語譜圖的時間分辨率和頻率分辨率是由所用窗函數的特性決定的。我們仍可通過傅里葉變換解釋和濾波器解釋來估計它的時間分辨率和頻率分辨率。

6)語音的倒譜圖6-30倒譜運算的方框圖

用倒譜法進行基音檢測和共振峰檢測的具體步驟。

(1)基音檢測。

因為語音的倒譜是將語音的短時譜取對數后再進行IDFT所得到的,所以濁音信號的周期性激勵反映在倒譜上是同樣周期的沖激,由此可從倒譜波形中估計出基音周期。一般把倒譜波形中第二個沖激認為是對應激勵源的基頻。圖6-31和圖6-32分別給出一種倒譜法求基音周期的方框圖和流程圖。圖6-31一種倒譜法求基音周期的方框圖圖6-32一種倒譜法求基音周期的流程圖

(2)共振峰檢測。

倒譜可以將基音諧波和聲道的頻譜包絡分離出來。倒譜的低頻部分可以分析聲道、聲門和輻射信息,而高頻部分可用來分析激勵源信息。對倒譜進行低頻窗選,通過語音倒譜

分析系統的最后一級,進行DFT后的輸出即為平滑后的對數模函數,這個平滑的對數譜反映了特定輸入語音段的諧振結構,即譜的峰值基本上對應共振峰頻率,對平滑過的對數譜中的峰值進行定位,即可估計共振峰。共振峰檢測框圖如圖6-33所示。圖6-33共振峰檢測框圖

6.4.4動態時間規整

圖6-34動態時間規整算法的示意圖

實際中,DTW是借由動態規整算法來加以具體實現的,它是最優化算法的一種,圖6-35給出了其原理圖。圖6-35動態規整算法的原理圖

6.4.5有限狀態矢量量化技術

有限狀態矢量量化(FiniteStateVectorQuantization,FSVQ)是一種有記憶的矢量量化。它既可以用于數據壓縮與傳輸(對語音信號來說,也就是聲碼器),也可用于語音識別。

1.FSVQ原理及FSVQ聲碼器

首先介紹FSVQ的工作原理。FSVQ是一種有記憶的、多碼本的矢量量化系統,每個碼本對應一個狀態。輸入語音信號的矢量是根據該狀態下的一個碼本來進行量化的,用該碼本中一個碼矢的角標作為輸出。同時,FSVQ還應當按照建立碼本時所知的狀態轉移函數來選擇下一個輸入信號矢量應該用哪個碼本(仍然屬于當前系統的多碼本)來實施量化。也就是說,每一個編碼量化的狀態是由上一個狀態以及上一個編碼結果來獲得的。圖6-36FSVQ的原理框圖

FSVQ技術是以LBG(Linde-Buzo-Gray)算法為基礎的,其設計方法可以分為三步:

設計各初始碼本;

根據訓練序列獲取狀態轉移函數;

利用迭代法不斷改善各個碼本的功能。在構建初始碼本時,能獲得訓練序列狀態轉移的統計分布,同時還可以獲得狀態轉移函數。

最后,再利用訓練序列不斷地迭代訓練,來改善當前狀態下的碼本性能及狀態轉移函數,直到滿足所要求的失真。所獲得的狀態轉移函數為一個表格,根據它能夠從當前狀態sn

最小失真的碼矢角標jn

來找到下一個狀態sn+1。

如果將圖6-36所示的FSVQ用于實際的數據壓縮與傳輸,即輸入語音進行通信,就是FSVQ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論