數(shù)字音視頻處理課件第6-9章數(shù)字音頻處理技術 -數(shù)字音視頻技術的交叉應用

上傳人：q*** IP屬地：山東上傳時間：2025-05-14 格式：PPTX 頁數(shù)：588 大小：14.72MB 積分：45 舉報 版權申訴

數(shù)字音視頻處理課件第6-9章數(shù)字音頻處理技術 -數(shù)字音視頻技術的交叉應用_第2頁

數(shù)字音視頻處理課件第6-9章數(shù)字音頻處理技術 -數(shù)字音視頻技術的交叉應用_第3頁

數(shù)字音視頻處理課件第6-9章數(shù)字音頻處理技術 -數(shù)字音視頻技術的交叉應用_第4頁

數(shù)字音視頻處理課件第6-9章數(shù)字音頻處理技術 -數(shù)字音視頻技術的交叉應用_第5頁

已閱讀5頁，還剩583頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

第6章

數(shù)字音頻處理技術6.1數(shù)字信號處理基礎6.2語音信號產(chǎn)生模型6.3語音信號合成的基本方法6.4語音識別的基本技術和方法6.5本章小結(jié)

6.1數(shù)字信號處理基礎

6.1.1線性和時不變離散時間系統(tǒng)(簡稱離散系統(tǒng))分為線性時不變系統(tǒng)、線性時變系統(tǒng)、非線性時不變系統(tǒng)和非線性時變系統(tǒng)四類。其中最重要、最常用的是線性時不變系統(tǒng)，這是因為很多物理過程都可以用這類系統(tǒng)來表征，且其在數(shù)學上便于表示，在理論上便于分析。

離散系統(tǒng)中兩個重要的特性是線性和時不變。線性系統(tǒng)的特點是疊加信號的輸出等于各自輸出之和，即輸入信號x1(n)+x2(n)的輸出信號為y1(n)+y2(n)，并且線性系統(tǒng)輸出值的大小正比于輸入信號的幅度，即輸入信號ax(n)對應的輸出信號為ay(n)。綜合這些性質(zhì)，對于線性離散系統(tǒng)，輸入信號ax1(n)+bx2(n)對應的輸出信號為ay1(n)+by2(n)，這里a、b

是常數(shù)。

時不變的離散時間信號是指對輸入信號x(n-k)，其對應的輸出為y(n-k)，其中k為整數(shù)。換句話說，線性時不變離散LinearTimeinvariantDiscrete，LTD)系統(tǒng)在所有的時間里均表現(xiàn)出相同的特性。例如，輸入延遲k

個取樣，輸出也會延遲k

個取樣。

6.1.2沖激響應和卷積

1.沖激響應

沖激響應被取樣后，可以用來過濾信號。將濾波器的沖激響應值乘以信號值可以用來對信號進行濾波。濾波器沖激響應的每一個值乘以一個信號值，就得到一系列經(jīng)過輸入信號調(diào)制的濾波器的沖激響應。將所有這些經(jīng)過調(diào)制的沖激響應相加減便得到了最終的輸出結(jié)果。

上述運算操作實際上就是卷積過程。線性系統(tǒng)的輸出等于信號與系統(tǒng)沖激響應的卷積。卷積是一個時域內(nèi)的運算過程，等效于對兩個網(wǎng)絡的頻率響應相乘之積求逆傅里葉變換。

2.卷積運算

一般可以將卷積理解為取樣值(代表信號在不同時刻的取樣)乘以加權系數(shù)，連續(xù)地將這些數(shù)值疊加之后產(chǎn)生最后的輸出。有限脈沖響應(FiniteImpulseResponse，F(xiàn)IR)重復取樣濾波器就是一個很好的例子，一組取樣值與描述沖激響應的系數(shù)相乘、疊加之后輸出。在時域中可以將其理解為輸入的時間信號與時域濾波器沖激響應的卷積。

例如，理想低通濾波器的頻率響應可以由等效時域函數(shù)sin(x)/x

的沖激響應的系數(shù)獲得，輸入信號和這些系數(shù)的卷積就是濾波器的輸出信號。一般而言，若有兩個序列f1(k)和f2(k)，其卷積為

1.拉普拉斯變換

拉普拉斯變換用于分析連續(xù)時間信號和頻率信號，它將時域函數(shù)x(t)(t∈[0，+∞))變換為頻域函數(shù)

X(s)。拉普拉斯變換的形式為

拉普拉斯變換在模擬設計中非常有用。

2.傅里葉變換

傅里葉變換是一種特殊的拉普拉斯變換，它將時域函數(shù)x(t)映射為頻域函數(shù)

X(jω)，其中，X(jω)描述了信號x(t)的頻譜。傅里葉變換的形式為

當s=jω時，這個等式與拉普拉斯變換是一樣的。當實部s=0時，拉普拉斯變換等同于傅里葉變換。傅里葉級數(shù)是傅里葉變換的一種特殊情況，它對應周期性的時間信號。

3.Z變換

Z變換在分析時域離散信號時起著重要的作用。在時域連續(xù)系統(tǒng)理論中，拉普拉斯變換可以被看成傅里葉變換的一種推廣；在時域離散系統(tǒng)中，Z變換可以看成離散傅里葉變換(DiscreteFourierTransform，DFT)的一種推廣。當z=ejω

時，Z變換等同于傅里葉變換，DFT是Z變換的特例。序列x(n)的Z變換定義為

式中，z是復變量；z-1代表一個單位延遲。逆Z變換可以利用積分定理推導出。

圖6-1所示為連續(xù)時間信號及其對應的傅里葉變換和拉普拉斯變換之間的轉(zhuǎn)換關系，圖6-2所示為離散時間信號及其對應的離散傅里葉變換和Z變換之間的轉(zhuǎn)換關系。

圖6-1連續(xù)時間信號及其對應的傅里葉變換和拉普拉斯變換之間的轉(zhuǎn)換關系

圖6-2離散時間信號及其對應的離散傅里葉變換和Z變換之間的轉(zhuǎn)換關系

6.1.4離散時間傅里葉變換(DTFT)與離散傅里葉變換(DFT)

離散時間序列信號的傅里葉變換強調(diào)只在時間域離散，而頻譜函數(shù)是連續(xù)的，通常稱為序列的離散時間傅里葉變換。對模擬信號在時域內(nèi)進行采樣的結(jié)果是頻域內(nèi)頻譜的周期延拓。也就是說，只要輸出離散時間序列信號的頻譜是周期函數(shù)，就可以用傅里葉變換表示，因此一個序列x(n)的DTFT定義為

式中，X(ejω)是序列x(n)的頻譜函數(shù)。

由此可見，X(ejω)是以2π為周期的連續(xù)函數(shù)，離散信號x(n)的傅里葉變換產(chǎn)生了連續(xù)譜，計算起來很困難。為了便于計算機以數(shù)字運算方法實現(xiàn)傅里葉變換，在頻域上對X(ejω)進行均勻采樣，當取樣點數(shù)為

時，N

點的DFT可以表示為

式中，X(k)描述了信號在頻域N

個等間距點的幅度。

6.2語音信號產(chǎn)生模型6.2.1語音信號產(chǎn)生機理肺部將空氣排出形成氣流。空氣流過緊繃的聲帶時，聲帶將周期性地開啟和閉合產(chǎn)生張弛振動。聲帶開啟時，空氣流從聲門噴射而出，形成脈沖；聲帶閉合時，相當于脈沖序列處于間歇期。因此，在這種情況下聲門處將產(chǎn)生一個類似準周期性脈沖序列的空氣流，該空氣流經(jīng)過聲道后最終從嘴唇輻射出聲波，這便是“濁音”。空氣流過完全舒展開的聲帶時，空氣流將不受影響地通過聲門。

空氣流通過聲門后，根據(jù)聲道的收縮情況會產(chǎn)生兩種不同的情況：一種情況是，由于聲道的某個部位的收縮而形成了一個狹窄的通道，此時空氣流將以高速沖過收縮區(qū)并在附近產(chǎn)生空氣湍流，這種空氣湍流通過聲道后便形成“摩擦音”或“清音”；另一種情況是，空氣流過完全閉合的某個部位時，便在此處形成空氣壓力，當閉合點突然開啟時，氣壓將快速釋放并在經(jīng)過聲道后形成“爆破音”。

由此可見，語音是由肺部排出的空氣流激勵聲道后從口鼻輻射出來而產(chǎn)生的。不同的激勵源會產(chǎn)生三種不同類型的語音，即濁音、清音和爆破音。濁音的激勵源是位于聲門處的準周期脈沖序列，清音的激勵源是位于聲道中某個收縮區(qū)域的空氣湍流，爆破音的激勵源則是位于聲道某個閉合點處建立起來的突變氣壓。

當聲音由上述三種激勵方式產(chǎn)生出來以后，便順著聲道進行傳播，此時可將聲道看作一個具有某種諧振特性的腔體。腔體的一組諧振點稱為共振峰，共振峰及其帶寬取決于聲道的形狀尺寸，這些不同位置及寬度的共振峰決定了聲道的頻譜特性。而輸出氣流的頻率特性要受到聲道共振特性的影響。聲門脈沖序列具有豐富的諧波成分，這些頻率成分與聲道的共振峰之間相互作用并最終影響語音的音質(zhì)。共振峰頻率與聲道傳遞函數(shù)極點相對應。共振峰頻率由低到高排列為第一共振峰、第二共振峰……相應的頻率用f1、f2……表示。采用盡可能多的共振峰有助于精確描述語音，但在實際應用中，一般采用最重要的前三個共振峰。

6.2.2語音信號產(chǎn)生的數(shù)字模型

語音信號模型通常是由聲門脈沖模型、聲道模型和輻射模型等組成的。聲門脈沖模型濾波器G(z)使?jié)嵋舻募钚盘柧哂新曢T氣流脈沖的實際波形。對聲門波形的頻率分析表明，其幅度頻譜按每倍頻12dB的速率遞減。如果令

式中，g1、g2

都為接近于1的常數(shù)，那么由此生成的濁音激勵信號頻譜將接近聲門氣流脈沖的頻譜。

可以利用聲道模型V(z)來模擬聲道的傳輸函數(shù)，把實際聲道視為一個變截面聲管，根據(jù)流體力學的方法可以導出，在大多數(shù)情況下，聲道傳輸函數(shù)是一個全極點函數(shù)。因此，V(z)可以表示為

式中，α0=1，αi

為實數(shù)。

將截面積連續(xù)變化的聲管近似為p

段短聲管的串聯(lián)，且每段短聲管的截面積近似不變，則p

為全極點濾波器的階，p

值越大，模型的傳輸函數(shù)與聲道實際傳輸函數(shù)的吻合程度越高。一般地，p=8~12就能滿足實際應用要求。若p

為偶數(shù)，則V(z)一般有p/2對共軛極點rkexp±(jωk)，k=1~p/2。每個ωk

分別與語音的各個共振峰相對應。

輻射模型R(z)與口唇有關，R(z)一般可以表示為R(z)=(1-rz-1)，r≈1(單零點傳遞函數(shù))。

綜合考慮聲門激勵、聲道和嘴唇輻射影響就得到圖6-3所示的語音信號產(chǎn)生的數(shù)字模型。這就是說，語音信號可看成激勵信號激勵一個線性系統(tǒng)H(z)而產(chǎn)生的輸出，其中，H(z)是由聲道模型V(z)與口唇輻射模型R(z)相級聯(lián)得到的，即

對于濁音而言，我們還可以把聲門脈沖的影響也反映到傳遞函數(shù)中，即

圖6-3語音信號產(chǎn)生的數(shù)字模型

上述語音產(chǎn)生模型的基本思想起源于20世紀30年代Duddley發(fā)明的聲碼器，只是當時還沒有離散線性系統(tǒng)的成熟理論，而是采用濾波器組頻譜分析器來粗略地估計系統(tǒng)的頻譜響應。但其基本思想是將激勵與系統(tǒng)相分離，使語音信號解體來分別進行描述，而不是直接研究信號波形本身的特性，這是導致語音信號處理技術飛速發(fā)展的關鍵。

6.3語音信號合成的基本方法

6.3.1概述語音合成(SpeechSynthesis)是由人工制作出語音的技術。它是傳統(tǒng)的人機語音通信系統(tǒng)的一個重要成分，語音合成能夠賦予機器“人工嘴巴”的功能，其目標是讓機器可以像人那樣說話。

1.波形合成法

波形合成法通常有兩種實現(xiàn)方式。一種是波形編碼合成法，它和語音編碼中的波形編解碼方法相似，這種方法存儲待合成語音的發(fā)音波形或?qū)⒉ㄐ尉幋a壓縮后進行存儲，在重放時再解碼存儲的波形。這種語音合成方法僅僅用于語音存儲及重放。波形編碼合成最簡單的方法就是直接進行A/D轉(zhuǎn)換以及D/A轉(zhuǎn)換，或稱為PCM波形合成法。

但是用波形編碼合成法合成出的語音不可能有很大的詞匯量，因為該方式所需的存儲空間很大，盡管可以借助波形編碼(如ADPCM、APC等)節(jié)省一些存儲量空間。另外一種波形合成法是波形編輯合成法，這一方法借助波形編輯技術來進行語音合成。它存儲適當?shù)恼Z音單元作為音庫，合成時根據(jù)待合成語音內(nèi)容選取音庫中的合成單元，然后對這些波形進行平滑、波形編輯拼接等處理后輸出所需語音。不同于規(guī)則合成的方法，這類方法不對合成語音段時所需合成單元進行大幅度的修改，通常只是簡單地對相對時長的強度進行調(diào)整。所以，波形編輯合成法必須要選擇詞、詞組、短語甚至語句這樣比較大的語音單元作為合成的基元。

2.參數(shù)合成法

參數(shù)合成法是一類較為復雜的方法，也被稱為分析合成法。它首先分析輸入語音信號，將其中的語音參數(shù)提取出來，以達到壓縮存儲量的目的。然后由提取出的參數(shù)合成語音。參數(shù)合成法一般分為發(fā)音器官參數(shù)合成、聲道模型參數(shù)合成兩種。發(fā)音器官參數(shù)合成法是通過定義聲帶、舌、唇的相關參數(shù)直接對人發(fā)音的過程進行模擬。依據(jù)發(fā)聲參數(shù)計算聲道截面積函數(shù)，從而計算聲波。但是因為人的發(fā)音生理過程復雜而且理論計算與物理模擬存在一定差別，所以合成出的語音質(zhì)量目前還不理想。

聲道模型參數(shù)合成方法是根據(jù)聲

道的截面積函數(shù)或其諧振特性來合成語音的。初期語音合成系統(tǒng)中的聲學模型，一般基于模擬人的口腔的聲道特性來構建。其中，比較著名的有克拉特(Klatt)的共振峰(Formant)合成系統(tǒng)，后來又產(chǎn)生了基于LPC(LinearPredictiveCoefficient，線性預測系數(shù))、LSP(LineSpectralPairs，線性頻譜對)和LMA(LogMagnitudeApproximate)等聲學參數(shù)的合成系統(tǒng)。

這些方法用來建立聲學模型的過程通常分為三步：首先，錄制涵蓋人發(fā)聲過程中所有可能出現(xiàn)的讀音；其次，從這些聲音中提取聲學參數(shù)，整合成一個完善的音庫；然后，在發(fā)音過程中，根據(jù)待合成語音選擇合適的聲學參數(shù)；最后，根據(jù)韻律模型給出的韻律參數(shù)，使用合成算法生成語音。參數(shù)合成方法的優(yōu)勢在于其音庫都比較小，而且整個系統(tǒng)能夠適應的韻律特征范圍較廣。這種合成方法生成語音的比特率低，音質(zhì)適中，但是合成的語音不夠自然和清晰。

3.規(guī)則合成法

規(guī)則合成法是一種高級的合成方法，它通過語音學規(guī)則產(chǎn)生語音。規(guī)則語音合成系統(tǒng)不僅存儲了最小語音單位的聲學參數(shù)，而且還保存了由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子以及控制音調(diào)、輕重音等韻律的各種規(guī)則。這種方法的詞匯表不用經(jīng)過事先確定，而是根據(jù)所提供的待合成語音，由合成系統(tǒng)利用上述各種規(guī)則自動地把它們變換為連續(xù)的語音聲波。

6.3.2共振峰合成法

參數(shù)合成法將聲源參數(shù)、清音/濁音判別、聲道參數(shù)和能量按照時間順序連續(xù)地輸入?yún)?shù)合成器，然后由參數(shù)合成器輸出合成的語音。它從本質(zhì)上講是語音參數(shù)分析方法的逆過程。這里只介紹兩種主要的參數(shù)合成法：共振峰合成法和LPC合成法，它們都是較為流行的語音合成技術。其中，LPC合成法具有實現(xiàn)簡單等優(yōu)點，而共振峰合成法雖然比LPC合成法復雜，但它可以產(chǎn)生較高的合成音節(jié)。

共振峰合成法根據(jù)諧振腔模型來模擬聲道。它借助帶寬及共振峰頻率等腔體的諧振特性來構建共振峰濾波器。不同音色的語音有著各不相同的共振峰模式，需要根據(jù)不同的帶寬及共振峰頻率構建多個共振峰濾波器。共振峰合成法通過組合不同的共振峰濾波器來模擬聲道的傳輸特性，同時對激勵聲源發(fā)出的信號進行調(diào)制，輸出合成語音。這就是共振峰合成器的實現(xiàn)原理。在實際實現(xiàn)過程中，共振峰濾波器的數(shù)目以及組合的形式是固定不變的，相關參數(shù)則根據(jù)每一幀輸入語音來進行適當?shù)恼{(diào)整，這樣就能表征不同共振峰模式下音色各異的語音。

圖6-4為共振峰合成器的系統(tǒng)模型。可以看出，首先由共振峰濾波器模擬聲道傳輸特性對接收到的激勵聲源進行調(diào)制，然后經(jīng)由輻射效應輸出合成語音。因為發(fā)聲時器官是處于運動狀態(tài)的，所以共振峰合成器的系統(tǒng)參數(shù)也應當是隨著時間而發(fā)生變化的。通常根據(jù)當前幀輸入語音的變化來對系統(tǒng)參數(shù)進行修正。

圖6-4共振峰合成器的系統(tǒng)模型

6.3.3線性預測編碼合成法

線性預測編碼(LPC)合成法是一種較為實用和簡單的語音合成方法，由于低成本、低復雜度和低數(shù)據(jù)率而受到較多的關注。

圖6-5給出了LPC語音合成器的實現(xiàn)框圖。

圖6-5LPC語音合成器的實現(xiàn)框圖

線性預測合成的形式有兩種。一種是直接用預測器系數(shù)構成的遞歸型LPC語音合成濾波器，其結(jié)構如圖6-6所示，用這種方法定期地改變激勵參數(shù)和預測器系數(shù)就能合成出語音。在一個語音樣本的合成過程中，需要進行p

次加法以及p

次乘法。該結(jié)構具有簡單和直觀的優(yōu)點，合成的語音樣本為

式中，ai

為預測器系數(shù)；G

為模型增益；u(n)為激勵；s(n)為合成語音樣本；p

為預測器階數(shù)。

另一種合成的形式是采用反射系數(shù)構成的格型合成濾波器，它的合成語音樣本為

式中，G

為模型增益；u(n)為激勵；ki

為反射系數(shù)；bi(n)為后向預測誤差；p

為預測器階數(shù)。

圖6-6-用預測器系數(shù)構成的遞歸型LPC語音合成器

6.3.4基音同步疊加法

PSOLA是一種修改合成語音韻律的算法，它主要用于波形編輯語言合成技術。音高、音長和音強是決定語音波形韻律的三個主要時域參數(shù)。音高的大小體現(xiàn)波形的基音周期，對于大多數(shù)通用語言，音高僅體現(xiàn)不同的語氣。由于漢語的音高曲線構成聲調(diào)，聲調(diào)有辨義作用，因此對漢語的音高修改比較復雜。對穩(wěn)定的波形段來說，音長的調(diào)節(jié)是比較容易實現(xiàn)的，僅僅需要按照基音周期為單位進行加減即可，但由于語音基元本身的復雜性，實際中常使用特定的時長縮放法。改變音強只需要加強波形即可，但對一些重音有變化的音節(jié)，幅度包絡可能也需要改變。

基音同步疊加技術一般有時域基音同步疊加(TD-PSOLA)、頻域基音同步疊加(FD-PSOLA)和線性預測基音同步疊加(LPC-PSOLA)三種實現(xiàn)方式。概括起來說，用PSOLA算法實現(xiàn)語音合成時主要有三個步驟，分別為基音同步分析、基音同步修改和基音同步合成。

1.基音同步分析

同步標記被用來準確反映各基音周期的起始位置，它們是與合成單元濁音段的基音保持同步的一系列位置點。對語音合成單元實施同步標記設置是基音同步分析的主要功能。

PSOLA技術對短時信號的時間長度選擇以及疊加和截取都是根據(jù)同步標記進行的。濁音段信號有基音周期，清音段信號則屬于白噪聲，這兩種類型需要區(qū)別對待。

以語音合成單元的同步標記為中心，選擇適當長度(一般取兩倍的基音周期)的時窗對合成單元進行加窗處理，獲得一組短時信號xm(n)，即

式中，tm

為基音標注點；hm(n)一般取漢明窗，窗長大于原始信號的一個基音周期，因此窗間有重疊。窗長一般為原始信號基音周期的2~4倍。

2.基音同步修改

基音同步修改借助減少、增加合成單元標記間隔來改變合成語音的音頻；借助刪除、插入合成單元同步標記來改變合成語音的時長。在修改時使用一套新的合成信號對短時合成信號序列進行基音標記同步。在TDPSOLA方法中，短時合成信號由相應的短時分析信號直接復制而來。若短時分析信號為x(ta(s)，n)，短時合成信號為x(ts(s)，n)，則有

式中，ts(s)為合成基音標記；ta(s)為分析基音標記。

3.基音同步合成

基音同步合成是短時合成信號疊加合成的。借助對短時合成信號的減少或增加來實現(xiàn)合成信號時長的變化。若信號基頻發(fā)生了變化，就需要先將短時合成信號變換成滿足需求的短時合成信號，然后再進行合成操作。

目前有很多基音同步疊加合成方法。以采用原始信號譜和合成信號譜差異最小的最小平方疊加合成法(Least-squareOverlap-addedScheme)為例，最終合成的信號為

利用式(6-18)和式(6-19)，可以通過壓縮和伸長原始語音與基音同步標志tm

之間的相對距離，靈活地降低和提高合成語音的基音。同樣還可以通過刪除和插入音節(jié)中基音同步標志來改變合成語音音長，最終得到一個新的合成語音的基音同步標志tq，此外還能夠借助改變式(6-18)中能量因子aq

來對語音中不同部位的合成語音的輸出能量進行調(diào)整。圖6-7為同步疊加算法改變語音的基頻和時長。

圖6-7同步疊加算法改變語音的基頻和時長

6.3.5文語轉(zhuǎn)換系統(tǒng)

文語轉(zhuǎn)換(TextToSpeech，TTS)是指通過一系列硬軟件對文本文件進行轉(zhuǎn)換后，借助電話語音系統(tǒng)或者計算機等輸出語音的過程，同時盡量保證合成出的語音具有較好的可懂度和自然度。文語轉(zhuǎn)換系統(tǒng)能夠提供一個良好的人機交互界面，能夠在不同的智能系統(tǒng)中得到應用，如自動售票系統(tǒng)和信息查詢系統(tǒng)。它也能夠輔助殘疾人的交流，如用于聽障人士的代言系統(tǒng)或者用于視障人士的閱讀設備。此外，文語轉(zhuǎn)換系統(tǒng)還能夠應用于通信設備以及各種數(shù)字產(chǎn)品中，如PDA和手機等。

成功的文語轉(zhuǎn)換系統(tǒng)應當能夠輸出清晰且自然流暢的語音，所以必須集成優(yōu)秀的語音合成模塊。如果單純地對一個字的發(fā)音進行機械地連接，合成的語音將不具有足夠的自然度。發(fā)音聲調(diào)上的變化決定了輸出語音的自然度。在連續(xù)的語音流內(nèi)，一個字的發(fā)音不只和它自身的發(fā)音有關系，還會被其相鄰字的發(fā)音影響。因此文語轉(zhuǎn)換系統(tǒng)應當先分析輸入文本，按照上下文的關系來分析每個字的發(fā)音聲調(diào)應當如何變化，然后使用得到的聲調(diào)變化參數(shù)控制語音的合成，所以，文語轉(zhuǎn)換系統(tǒng)還必須擁有文本分析韻律控制模塊。綜上所述，文語轉(zhuǎn)換系統(tǒng)的三個核心部分為文本分析、韻律控制和語音合成，其結(jié)構框圖如圖6-8所示。

圖6-8文語轉(zhuǎn)換系統(tǒng)的結(jié)構框圖

1.文本分析

文本分析的首要目的是讓計算機可以識別文字，同時依照文本的上下文關系對文本進行一定程度的理解，這樣就能夠了解需要發(fā)什么音和怎么發(fā)音，從而讓計算機知道文本中包含哪些音的詞、短語或者句子以及發(fā)音時應該在何處停頓和停頓多久。

文本分析過程主要包括三個步驟：

①

規(guī)范化輸入文本，對用戶可能出現(xiàn)的拼寫錯誤進行處理，并把不規(guī)范或者不能發(fā)音的字符刪除；

②

確定文本中詞或短語的邊界和文字的讀音，并分析文本內(nèi)的姓氏、數(shù)字和特殊字符，確定多音字的讀音；

③

確定發(fā)音時語氣的變換及不同音的輕重方式。

最終，為了使后續(xù)模塊能夠進一步進行處理和生成對應信息，把輸入的文字轉(zhuǎn)換成計算機能夠處理的內(nèi)部參數(shù)。

2.韻律控制

不同人在說話時都有著不同的語氣、停頓方式、聲調(diào)和發(fā)音長短等，這些都屬于韻律特征。基頻、音強和音長等韻律參數(shù)能夠影響這些韻律上的特征。

3.語音合成

在文語轉(zhuǎn)換系統(tǒng)中，采用波形拼接的語音合成方法被廣泛用于合成語音模塊，其中最為典型的是前面介紹過的基音同步疊加(PSOLA)算法。用PSOLA算法可以直接對存儲于音庫的語音進行拼接。

但是，這種方法也存在著一些問題，主要體現(xiàn)在兩個方面：首先，合成音庫一般相當龐大，會占用大量的儲存空間，不利于文語轉(zhuǎn)換系統(tǒng)在掌上電腦或其他小型終端設備上的推廣；此外，相鄰聲音單元的譜之間存在不連續(xù)性，容易導致合成音質(zhì)的下降。現(xiàn)在處理這些問題的一個較好途徑是把參數(shù)語音合成方法和基于規(guī)則的波形拼接計數(shù)結(jié)合在一起。這種融合產(chǎn)生了許多新的模型，如基因同步的Sinusoidal模型。這些模型能進一步提高合成語音的質(zhì)量。

6.4語音識別的基本技術和方法

6.4.1概述

1.語言識別的分類語音識別(SpeechRecognition)主要是指讓機器聽懂人說的話，即在各種情況下，準確地識別出語音的內(nèi)容，分析語音中的信息，并根據(jù)這些信息完成人的意圖。語音識別是一門涉及面廣泛的交叉學科，它與通信、計算機、數(shù)理統(tǒng)計、語音語言學、神經(jīng)生理學、信號處理、人工智能和神經(jīng)心理學等多個學科都有著密切的關系。

按照不同的分類角度，語音識別有以下幾種分類方法：

(1)根據(jù)需要識別的單位，把語音識別劃分成以下幾類：

①

孤立單詞語音識別，即識別的單詞之間有一定的停頓。

②

選詞語音識別，即將某個或某幾個單詞從連續(xù)語音中識別出來。

③

連續(xù)語音識別，即待識別的單詞之間不存在停頓。

④

語音理解，即識別語音并借助語言學的知識來推斷出所識別語音的具體含義。

(2)根據(jù)需要識別的詞匯量劃分。每個語音識別系統(tǒng)中都包含一個詞匯表，系統(tǒng)僅能對包含在詞匯表中的詞條進行識別。根據(jù)能夠識別詞匯的數(shù)量劃分，有小詞匯(10~50個)、中詞匯(50~200個)、大詞匯(200個以上)等孤立詞識別。在任何情況下，語音識別系統(tǒng)對輸入語音的識別率都會隨著詞匯表中單詞量的增加而降低。在語音識別研究領域中，對大詞匯量下連續(xù)語音的識別是最為困難的，這也是目前國內(nèi)外研究人員投入時間和精力最多的課題。

(3)根據(jù)講話人的范圍劃分為三種不同的語音識別系統(tǒng)，即單個特定講話人、多個講話人(即有限的講話人)和與講話者無關(即無限的說話人，也就是無論是誰的聲音都能識別)。針對單個特定講話人的語音識別系統(tǒng)僅對特定人的語音進行識別，其他兩種語音識別系統(tǒng)為非特定人的語音識別。對于特定人的語音識別系統(tǒng)，在系統(tǒng)投入使用前需要借助輸入的大量用戶發(fā)音數(shù)據(jù)對系統(tǒng)進行訓練，對非特定人的語音識別系統(tǒng)則無需由用戶輸入大量用于系統(tǒng)訓練的發(fā)音數(shù)據(jù)。

2.常見的語音識別方法

常見的語音識別方法有模板匹配法、隨機模型法和概率語法分析法。這三種語音識別方法都以在最大似然決策上建立的貝葉斯(Bayes)判決作為基礎，它們的不同之處在于具體的實現(xiàn)過程。

1)模板匹配法

語音識別系統(tǒng)在早期多數(shù)是根據(jù)簡單的模板匹配原理來構造的。它們屬于針對特定人的小詞匯量孤立詞識別系統(tǒng)。在系統(tǒng)訓練過程中，由用戶把詞匯表內(nèi)的每個詞說一遍，同時把發(fā)音的特征矢量看成模板(Template)，存放到模板庫中。在語音識別過程中，把待識別語音的特征矢量序列與模板庫中的每一個模板逐個比較，和輸入語音相似度最高的模板即為識別結(jié)果。

2)隨機模型法

隨機模型法是當前語音識別領域的主流研究方向。該類方法中最具代表性的是基于隱馬爾可夫模型(HMM)的語音識別方法。這種方法根據(jù)HMM的概率參數(shù)來進行似然函數(shù)的估計和判決，從而獲得識別的結(jié)果。可以把語音信號看作一個隨機過程，它在足夠短的時間段上有著近似于穩(wěn)定的信號特性。可以把總的語音信號看成依時間順序從相對穩(wěn)定的一個特性過渡到另一個特性。HMM根據(jù)概率統(tǒng)計方法去描述這種時變過程，在這個模型中，從一個狀態(tài)轉(zhuǎn)移到另外一個狀態(tài)的可能性決定于當前狀態(tài)的轉(zhuǎn)移概率。

3)概率語法分析法

概率語法分析法通常在詞匯量范圍較大的連續(xù)語音識別系統(tǒng)中使用。通過對不同語音的語譜及其變化的研究，語音學家們發(fā)現(xiàn)，雖然不同人在發(fā)出同一語音時，對應的語譜及其變化有著種種的不同，但是總存在一定的共同特征來區(qū)別它們和其他語音。這些用于區(qū)別不同語音的特征被稱為“區(qū)別性特征”。另一方面，人類語言受著語義、語法等規(guī)則的約束，在語音識別的過程中，充分應用了對話環(huán)境的相關信息和這些約束。

概率語法分析法能夠基于大規(guī)模的語料庫進行學習，從而捕捉到自然語言中的統(tǒng)計規(guī)律和概率分布，提高分析的準確性。它可以處理自然語言中的歧義和不確定性，通過計算各種可能的分析結(jié)果的概率來進行解析，從而得到更全面的語法分析結(jié)果。但是概率語法分析法的性能受限于訓練數(shù)據(jù)的質(zhì)量和規(guī)模，如果語料庫不充分或不具代表性，可能導致模型的泛化能力和準確性下降。

6.4.2語音識別原理

圖6-9給出了基于模式匹配原理的語音識別系統(tǒng)的框圖。語音識別系統(tǒng)從本質(zhì)上講是一種模式識別系統(tǒng)，因此它的基本結(jié)構和一般模式識別系統(tǒng)一樣，主要包括特征提取、距離測度以及參考模式庫等基本單元。同時，因為語音識別系統(tǒng)所需處理的是結(jié)構復雜、內(nèi)容豐富的語言信息，所以比一般的模式識別系統(tǒng)更為復雜。

1.預處理

1)反混疊濾波

反混疊濾波器主要有兩個作用：一是抑制電源干擾(50Hz或60Hz)；二是抑制輸入信號各頻率分量中頻率超出fS/2的所有分量(fS

為信號采樣率)，防止混疊干擾。因此，反混疊濾波器必須為上、下截止頻率分別為fH

和fL

的帶通濾波器。對于目前的絕大多數(shù)語音編碼器，fH3400Hz，fL=60Hz~100Hz，fS=8kHz。

事實上，反混疊濾波、A/D、D/A和平滑濾波等功能可用一塊專門的集成電路芯片獨立完成，實現(xiàn)起來很簡便，這里不再贅述。

2)音頻信號的采樣與量化

數(shù)字信號是指時間和幅度均為離散的信號。為了把模擬語音信號變換成數(shù)字信號，必須經(jīng)過采樣和量化兩個步驟。圖6-10給出了語音信號數(shù)字化的一般框圖。圖6-10語音信號數(shù)字化的一般框圖

所謂采樣，就是在時間域上對模擬信號進行等間隔取樣，其中兩個采樣點之間的間隔稱為采樣周期，它的倒數(shù)稱為采樣頻率。根據(jù)采樣定理，當采樣率大于信號最高頻率的兩倍時，在采樣過程中就不會丟失信息，并且可以用采樣后的信號重構原始信號。

從圖6-11中可以看出，中點上升量化器的輸出沒有零電平，而是在正區(qū)間產(chǎn)生正輸出電平，在負區(qū)間產(chǎn)生負輸出電平；中點水平量化器在零輸入?yún)^(qū)間有零電平輸出，通常使用均勻分布描述量化范圍和電平。一個均勻量化器必須滿足下面兩個條件：

圖6-118電平均勻量化器特征

從該例子中我們可以看到，均勻量化器只有兩個參數(shù)：電平數(shù)目N

和量化階距Δ。通常取電平數(shù)目

N=2B，以便最有效地利用B

位二進制碼。另外，Δ和B

必須一起選擇以覆蓋輸入樣值的幅度范圍。

假定輸入

x(n)≤Xmax，那么有(假設x(n)的概率密度函數(shù)是對稱的)

3)語音信號的預加重處理

對輸入的數(shù)字語音信號進行預加重處理的目的是對語音信號的高頻部分進行加重，去除嘴唇輻射影響，增加語音的高頻分辨率。一般通過傳遞函數(shù)

H(z)=1-αz-1的一階FIR高通數(shù)字濾波器來實現(xiàn)預加重，其中，α為預加重系數(shù)，0.9<α<1.0。設n

時刻語音采樣值為x(n)，經(jīng)過預加重處理后的結(jié)果為y(n)=x(n)-αx(n-1)，這里取α=0.98。圖6-12為該高通濾波器的幅頻特性和相頻特性。

圖6-12高通濾波器的幅頻特性和相頻特性

圖6-13中分別給出了預加重前和預加重后的一段語音信號及其頻譜，可以看出，預加重后頻譜在高頻部分的幅度得到了提升。

圖6-13一段語音信號預加重前和預加重后的頻譜

4)語音信號的分幀處理

經(jīng)過預加重數(shù)字濾波處理后，接下來進行加窗分幀處理。語音信號是一種時變信號，主要分為濁音和清音兩大類。其中濁音的基音周期、清濁音信號的幅度和信道參數(shù)等都隨

時間緩慢變化。由于發(fā)音器官的慣性運動，一般認為在一小段時間里(一般為10~30ms)語音信號近似不變，即語音信號具有短時平穩(wěn)性。這樣，可以把語音信號分割為一些短段來進行處理，稱為分幀。語音信號的分幀是采用可移動的有限長度窗口進行加權的方法實現(xiàn)的。

一般每秒的幀數(shù)約為33~100幀，具體幀數(shù)視實際情況而定。分幀雖然可以采用連續(xù)分幀的方法，但一般要采用交疊分段的方法，這是為了使幀與幀之間平滑過濾，保持其連續(xù)性。前后兩幀的交疊部分稱為幀移，幀移與幀長的比值一般取為0~1/2，圖6-14中為幀移與幀長的示意圖。

圖6-14幀移與幀長的示意圖

在加窗處理時，不同窗口的選擇將影響到音頻信號分析的結(jié)果。在選擇窗函數(shù)時，一般需要考慮窗口的形狀，即窗函數(shù)的形式。常用的窗函數(shù)有兩種，一種是矩形窗，窗函數(shù)如下：

另一種是漢明窗，窗函數(shù)如下：

這兩種窗的時域波形和幅頻特性分別如圖6-15和圖6-16所示。

圖6-15矩形窗的時域波形和幅頻特性

圖6-16-漢明窗的時域波形和幅頻特性

2.特征提取

在對語音信號進行預處理后，需要對其特征參數(shù)進行分析。特征提取是指從語音信號波形獲得一組能夠描述語音信號特征參數(shù)的過程。特征提取也稱為特征參數(shù)提取，與之相關的內(nèi)容則是特征間的距離測度。特征提取是模式識別的關鍵問題，特征參數(shù)的好壞對語音識別精度有很大影響。特征的選擇對識別效果至關重要，選擇的標準應體現(xiàn)異音字特征間的距離應盡可能大，而各同音字間的距離應盡可能小。同時，還要考慮特征參數(shù)的計算量，應在保持比較高的識別率的情況下，盡可能選擇較少特征維數(shù)，以利于減少存儲要求和實時實現(xiàn)。

通常將語音信號的特征矢量分為兩種：第一種是時域上的特征矢量，對一幀語音信號內(nèi)不同時域進行采樣直接組成矢量；第二種是變換域上的特征矢量，即為一幀語音信號經(jīng)過某種變換后獲得的矢量。

3.距離測度

語音識別有多種距離測度，如歐氏距離及其變形的距離測度、加權了超音段信息的識別測度和似然比測度等。另外，還有主觀感知的距離測度、隱馬爾可夫模型之間的距離測度等。

4.參考模式庫

參考模式庫就是指聲學參數(shù)模板。它是借助訓練和聚類的方法，從單個講話或多個講話人的重復的語音參數(shù)中進行長時間的系統(tǒng)訓練然后聚類得到的。

5.訓練與識別方法

有很多語音訓練與識別的方法，如矢量量化(VectorQuantization，VQ)、動態(tài)時間規(guī)整(DynamicTimeWarping，DTW)、分

類

矢

量

化(Fuzzy-StructuredVectorQuantization，F(xiàn)SVQ)、帶學習功能的矢量量化(LearningVectorQuantization，LVQ)、隱馬爾可夫模型

(HiddenMarkovModel，HMM)、模糊邏輯算法和時延神經(jīng)網(wǎng)絡(Time-DelayNeuralNetwork，TDNN)等算法，這些方法也可以進行綜合利用。

語音識別的核心是測度估計。現(xiàn)在，已經(jīng)存在眾多獲得模板與測試語音參數(shù)之間測度的算法，較為經(jīng)典的方法有三種：

①

動態(tài)時間規(guī)整法：對預存的參考模式和待識別的輸入語音進行模式匹配；

②

隱馬爾可夫模型法：基于統(tǒng)計方法為依據(jù)的識別；

③

矢量量化法：根據(jù)信源編碼技術的語音識別。

此外，還包括一部分混合的方法，例如VQ/DTW算法、FSVQ/HMM算法等。

6.專家知識庫

專家知識庫用來存儲語言學知識。知識庫中要有詞匯、語法、句法、語義和常用詞語搭配等知識，如音長分布規(guī)則、漢語聲調(diào)變調(diào)規(guī)則、構詞規(guī)則、同音字判別規(guī)則、語義規(guī)則和語法規(guī)則等。知識庫中的知識要便于修改和擴充，針對每一種語言需要有其特定的語言學專家知識庫。

7.判決

對于輸入信號計算而得的測度，根據(jù)若干準則及專家知識，判決選出可能的結(jié)果中最優(yōu)的一個并輸出，這個過程即為判決。在語音識別中，通常使用K平均最近鄰(K-NearestNeighbourhood，KNN)方法來決策，因此，選擇合適的距離測度的門限是需要解決的主要問題。不同的語種有著不同的門限值。判決結(jié)果的識別率是衡量門限值選擇是否正確的唯一標準，通常需要對門限值進行多次調(diào)整后才能取得較為準確的識別結(jié)果。

6.4.3特征表示與提取

選擇以及提取特征參數(shù)對語音識別系統(tǒng)非常重要，是構建系統(tǒng)的基礎。通常將語音信號的特征矢量分為兩種：第一種是時域上的特征矢量，即對一幀語音信號內(nèi)不同時域進行采樣直接組成矢量；第二種是變換域上的特征矢量，即一幀語音信號經(jīng)過某種變換后獲得的矢量。

1.時域特征表示與提取

1)短時平均能量

音頻信號的能量隨著時間的變化比較明顯，對其短時能量進行分析，可以描述幅度變化的情況。定義以n

為標識的某幀語音信號的短時平均能量En

為

若令h(n)=w2(n)，則式(6-26)可寫為

式(6-27)表明，窗口加權的短時平均能量相當于將“語音平方”信號通過一個線性濾波器的輸出。該濾波器的單位取樣響應為h(n)。短時平均能量的方框圖如圖6-17所示。

圖6-17短時平均能量的方框圖

沖激響應h(n)的選擇或者說窗函數(shù)的選擇直接影響著短時能量的計算。常見的有矩形窗和漢明窗等，各種窗的主瓣寬度和旁瓣高度如表6-1所示。

從表6-1可知，矩形窗的主瓣寬度最小，但其旁瓣高度最高；漢明窗的主瓣最寬，而旁瓣高度最低。當矩形窗的旁瓣太高時，會產(chǎn)生嚴重的泄漏(Gibbs)現(xiàn)象，因此只能在某些特殊場合中采用。而當漢明窗旁瓣最低時，可以有效地克服泄漏現(xiàn)象，具有更平滑的低通特性，因此應用最為廣泛。對于同一種窗函數(shù)，主瓣寬度與窗長成反比。圖6-18給出了51點的矩形窗和漢明窗的幅頻特性。

圖6-18矩形窗和漢明窗的幅頻特性

由圖6-18(a)可以看出，這是一個具有線性“相位-頻率”特性的低通濾波器的頻率響應。它的第一個零幅值頻率位置為

式中，f

對應矩形窗的低通濾波器的歸一化截止頻率；fS=1/T

為采樣頻率；N

為窗口序列w(n)的長度。

綜上所述，無論窗口形狀如何，窗口長度

起決定性的作用。N越大，濾波器的通帶變窄，波形振幅變化細節(jié)不明顯，能量變得平滑；反之，N

越小，濾波器的通帶變寬，信號得不到足夠平均，也就得不到平滑的能量函數(shù)。

短時平均能量的主要用途如下：

(1)濁音的能量明顯高于清音，因此短時平均能量可以作為區(qū)分清音和濁音的特征參數(shù)。

(2)在信噪比較高的情況下，短時能量可以用于區(qū)分有/無聲音。

(3)短時平均能量還可以作為輔助的特征參數(shù)用于語音識別。

短時能量可以有效地判斷信號幅度的大小，并可用于進行有聲/無聲判定，這對音頻信號的檢測具有重要的實際意義。

短時能量中對信號進行平方運算增加了高低信號之間的差距，因此在一些應用場合不太適用。解決這個問題的簡單方法是采用短時平均幅值來表示能量的變化，其公式為

式(6-29)用加窗后信號的絕對值之和代替平方和，使運算進一步簡化。短時平均幅度的實現(xiàn)方框圖如圖6-19所示。

圖6-19短時平均幅度的實現(xiàn)方框圖

2)短時平均過零率

短時平均過零率是語音信號時域分析中的一個重要的特征參數(shù)，它是指每幀內(nèi)信號通過零值的次數(shù)。對于橫軸為時間軸的連續(xù)語音信號，可以觀察到語音的時域波形通過橫軸的情況。在離散時間語音信號情況下，如果相鄰的采樣具有不同的代數(shù)符號就稱為發(fā)生了過零，并以此來計算過零的次數(shù)。單位時間內(nèi)過零的次數(shù)就稱為過零率，一段長時間內(nèi)的過零率稱為平均過零率。對于正弦信號，它的平均過零率就是兩倍的信號頻率除以采樣頻率，而固定的采樣頻率使得過零率在一定程度上可以反映出信號的頻譜特性。因為實際的音頻信號并不是簡單的正弦序列，所以平均過零率的表示方法不準確。

語音信號序列x(n)的短時平均過零率Zn

定義如下

式中，sgn[·]為符號函數(shù)，即

w(n)為窗口序列，計算時常采用矩形窗，窗長為N。當相鄰兩個采樣點符號相同時，sgn[x(n)]-sgn[x(n-1)]=0，沒有產(chǎn)生過零；當相鄰兩個采樣點符號相反時，sgn[x(n)]-sgn[x(n-1)]=2，為過零次數(shù)的2倍。因此在統(tǒng)計一幀(一個窗長

點)的短時平均過零率時，求出過零數(shù)后必須要除以2N。這樣就可以將窗函數(shù)w(n)表示為

按照式(6-30)，圖6-20給出了語音信號的短時平均過零率的方框圖。圖6-20語音信號的短時平均過零率的方框圖

根據(jù)上面定義計算的短時平均過零率容易受到低頻的干擾，特別是50Hz交流干擾的影響。解決這個問題有兩種方法：

(1)進行高通或者帶通濾波，減小隨機噪聲的影響。

(2)修改上述定義，設置門限T，將過零的含義修改為跨過正負門限，門限過零率如圖6-21所示。

圖6-21門限過零率

定義式(6-30)可更改為

由式(6-33)計算的過零率具有一定的抗干擾能力。即使存在小的隨機噪聲，只要它處于正負門限間的區(qū)域，就不會產(chǎn)生虛假的過零數(shù)。在語音識別前端檢測時還可采用多門限過零率，可以進一步改善檢測效果。

3)短時自相關函數(shù)

自相關函數(shù)用于衡量信號自身時間波形的相似性。由前面的介紹可知，清音和濁音由于發(fā)聲機理不同，因而在波形上也存在著較大的差異。濁音的時間波形往往呈現(xiàn)出一定的周期性，因此波形之間具有良好的相似性；而清音的時間波形具有隨機噪聲的特性，雜亂無章，因此樣點間的相似性較差。綜上，可以用短時自相關函數(shù)來測定語音的相似特性。

對于確定性信號序列，自相關函數(shù)的定義為

對于隨機信號序列或者周期信號序列，自相關函數(shù)定義為

自相關函數(shù)R(k)具有以下一些性質(zhì)：

(1)自相關函數(shù)為偶函數(shù)，即R(k)=R(-k)。

(2)若序列的周期為P，則其自相關函數(shù)的周期亦為P，即R(k)=R(k+P)。

(3)當k=0時R(0)為零滯后自相關值，其值最大，即

R(k)≤R(0)。

(4)對于確定信號，R(0)等于信號能量；對于隨機或周期信號，R(0)等于信號平均能量。

從這些性質(zhì)可以看到，自相關函數(shù)相當于一種特殊情況下的信號能量，更重要的是，在周期信號的周期整數(shù)倍上，它的自相關函數(shù)可以達到最大值，這為獲取周期性信號周期提供了依據(jù)。因此可以在不考慮信號起始時間的情況下，從自相關的第一個最大值的位置來估計其周期，這個性質(zhì)使自相關函數(shù)成為估計各種信號周期的一個依據(jù)。因此，如何獲得音頻信號的短時自相關函數(shù)具有重要的意義，下面就短時自相關函數(shù)展開討論。

短時自相關函數(shù)是在前面自相關函數(shù)的基礎上將信號加窗獲得的，即

式中，n

表示窗函數(shù)是從第n點開始加入。通過對上述自相關函數(shù)的分析可得，Rn(k)是偶函數(shù)，即Rn(k)=Rn(-k)；Rn(k)在k=0時具有最大值，并且Rn(0)等于加窗音頻信號的能量。

如果定義

那么式(6-36)可以寫成

式(6-38)表明：序列x(n)x(n-k)經(jīng)過一個沖激響應為hk(n)的濾波器濾波后得到上述的短時自相關函數(shù)，其方框圖如圖6-22所示。

圖6-22短時自相關函數(shù)的方框圖

圖6-23和圖6-24分別給出了清音和濁音的短時自相關函數(shù)，分別表示出了時域波形、加矩形窗和漢明窗后計算短時自相關函數(shù)歸一化后的結(jié)果。

圖6-23清音的短時自相關函數(shù)

圖6-24濁音的短時自相關函數(shù)

從圖6-23和圖6-24可以看出清音與濁音的短時自相關函數(shù)有以下幾個特點：

(1)短時自相關函數(shù)可以很明顯地反映出濁音信號的周期性。

(2)清音的短時自相關函數(shù)沒有周期性，也不具有明顯突出的峰值，其性質(zhì)類似于噪聲。

(3)不同窗對短時自相關函數(shù)結(jié)果有一定影響。采用矩形窗時，濁音自相關曲線的周期性顯示出比漢明窗更明顯的周期性。其主要原因是，在加漢明窗后，語音段兩端的幅度逐漸下降，從而模糊了信號的周期性。

窗長對濁音的短時自相關性也有著直接的影響：一方面，由于語音信號具有變化的特性，因而要求N應盡量小；但另一方面，為了充分反映語音的周期性，又必須選擇足夠?qū)挼拇埃瑏肀ＷC選出的語音段包含兩個以上的基音周期。由于基音頻率分布在50~500Hz的范圍

內(nèi)，8kHz采

樣

時

對

應

于16~160點，那么窗長N的選擇要求

N≥1000。圖6-25所示為分別用

N=1000、N=500、N=300的矩形窗對圖6-25中的濁音段加窗。

圖6-25不同矩形窗長的短時自相關函數(shù)

短時自相關函數(shù)是音頻信號時域分析的重要參數(shù)，但是在計算短時自相關函過程中，由于乘法運算所需的時間較長，計算量較大，因此需要對自相關函數(shù)的計算過程進行簡化。實際操作時，常使用短時平均幅度差函數(shù)來代替自相關函數(shù)，從而避免乘法運算。它是基于這樣一個想法，對于一個周期為P

的單純的周期信號進行差分，有

則在k=0，±P，±2P，…時，式(6-39)將為零。即當k

與信號周期吻合時，作為d(n)的短時平均幅度值總是很小，因此短時平均幅度差函數(shù)的定義為

對于周期性的x(n)，rn(k)也具有周期性。與rn(k)相反的是，在周期的各整數(shù)倍點上rn(k)具有的是谷值。由此可見，短時平均幅度差函數(shù)也可以用于基音周期的檢測，而且計算比短時自相關方法更簡單。

2.頻域特征表示與提取

1)短時傅里葉變換(STFT)的定義和物理意義

信號{x(n)}的短時傅里葉變換定義為

式中，{x(n)}為窗序列，顯然

Xn(ejω)是個二維函數(shù)，也稱為時頻函數(shù)。

w(n-m)是窗函數(shù)。不同的窗函數(shù)可以得到不同的傅里葉變換結(jié)果。在式(6-41)中，短時傅里葉變換有兩個變量，即離散時間n及連續(xù)頻率ω。若令ω=2πk/N，則可得到離散的短時傅里葉變換為

式(6-42)實際上就是

Xn(ejω)的頻率抽樣。

當頻率固定時，如ω=ωk，則

Xn(ejωk)可以看成信號經(jīng)過一個中心頻率為ωk

的帶通濾波器后產(chǎn)生的輸出。這是因為窗序列{x(n)}通常具有低通頻率響應，而x(n)ejnωk的傅里葉變換為X(ej(ω+ωk))，這里的指數(shù)ejnωk

對x(n)的調(diào)制作用使其頻譜產(chǎn)生移位，即將x(n)的頻譜中對應于頻率ωk

的分量平移到零頻。因此，式(6-44)可等效為如圖6-26所示的帶通濾波器示意圖。

圖6-26-帶通濾波器

因為復數(shù)可以分解為實部和虛部，所以Xn(ejω)bn(ω)也可以用實數(shù)來運算，即

式中

實數(shù)運算方框圖如圖6-27所示。

圖6-27實數(shù)運算方框圖

圖6-28短時傅里葉變換的濾波器解釋

2)短時傅里葉變換的取樣率

短時傅里葉變換

Xn(ejω)是一維時變信號x(n)的二維(時間和頻率)表示形式，是離散時間變量n

和連續(xù)頻率變量ω的函數(shù)。為了從Xn(ejω)無失真地恢復原始語音信號x(n)，基本的考慮是如何選擇Xn(ejω)在時域及頻域內(nèi)的采樣率。采樣率的選取應保證Xn(ejω)不產(chǎn)生混疊失真。

(1)時域采樣率。

上節(jié)中介紹的短時傅里葉變換的濾波器解釋中，對于某個固定的ω

值，Xn(ejω)是[x(n)ejω]經(jīng)過沖激性應為

w(n)的低通濾波器的輸出。若將

w(n)的傅里葉變換記為W(ejω)，對于大多數(shù)窗函數(shù)來說，W(ejω)具有低通濾波器的特性，若

W(ejω)的帶寬為BHz，Xn(ejω)則具有與窗相同的帶寬。根據(jù)采樣定理，Xn(ejω)的時域采樣率至少為2B才不至于出現(xiàn)混疊現(xiàn)象。

大多數(shù)實際應用的窗，其帶寬B

都與fS/N

成正比例關系，即

式中，fS

為采樣率；N

為窗寬；k

為正比例常數(shù)。所以，Xn(ejω

)在時域內(nèi)的取樣率應選取為

3)語音信號的重構

本節(jié)討論如何從傅里葉變換的采樣恢復原始語音信號的問題，通常稱為短時重構。圖6-29濾波器組相加法示意圖

4)窗長及形狀對STFT的影響

根據(jù)卷積定理，兩相乘序列的傅里葉變換等于各自傅里葉變換的卷積，因

此，w

(n-m)x(m)序列的標準傅里葉變換為

5)語音的語譜圖分析

能量密度譜函數(shù)Pn(ω)(或功率譜函數(shù))是二維的非負實值函數(shù)。用時間n

作為橫坐標，ω

作為縱坐標，將Pn(ω)的值表示為灰度級所構成的二維圖像稱為語譜圖(Spectrogram)。語圖譜反映了語音信號的動態(tài)頻譜特性，在語音分析中有重要的使用價值，被稱為可視語言。語譜圖的時間分辨率和頻率分辨率是由所用窗函數(shù)的特性決定的。我們?nèi)钥赏ㄟ^傅里葉變換解釋和濾波器解釋來估計它的時間分辨率和頻率分辨率。

6)語音的倒譜圖6-30倒譜運算的方框圖

用倒譜法進行基音檢測和共振峰檢測的具體步驟。

(1)基音檢測。

因為語音的倒譜是將語音的短時譜取對數(shù)后再進行IDFT所得到的，所以濁音信號的周期性激勵反映在倒譜上是同樣周期的沖激，由此可從倒譜波形中估計出基音周期。一般把倒譜波形中第二個沖激認為是對應激勵源的基頻。圖6-31和圖6-32分別給出一種倒譜法求基音周期的方框圖和流程圖。圖6-31一種倒譜法求基音周期的方框圖圖6-32一種倒譜法求基音周期的流程圖

(2)共振峰檢測。

倒譜可以將基音諧波和聲道的頻譜包絡分離出來。倒譜的低頻部分可以分析聲道、聲門和輻射信息，而高頻部分可用來分析激勵源信息。對倒譜進行低頻窗選，通過語音倒譜

分析系統(tǒng)的最后一級，進行DFT后的輸出即為平滑后的對數(shù)模函數(shù)，這個平滑的對數(shù)譜反映了特定輸入語音段的諧振結(jié)構，即譜的峰值基本上對應共振峰頻率，對平滑過的對數(shù)譜中的峰值進行定位，即可估計共振峰。共振峰檢測框圖如圖6-33所示。圖6-33共振峰檢測框圖

6.4.4動態(tài)時間規(guī)整

圖6-34動態(tài)時間規(guī)整算法的示意圖

實際中，DTW是借由動態(tài)規(guī)整算法來加以具體實現(xiàn)的，它是最優(yōu)化算法的一種，圖6-35給出了其原理圖。圖6-35動態(tài)規(guī)整算法的原理圖

6.4.5有限狀態(tài)矢量量化技術

有限狀態(tài)矢量量化(FiniteStateVectorQuantization，F(xiàn)SVQ)是一種有記憶的矢量量化。它既可以用于數(shù)據(jù)壓縮與傳輸(對語音信號來說，也就是聲碼器)，也可用于語音識別。

1.FSVQ原理及FSVQ聲碼器

首先介紹FSVQ的工作原理。FSVQ是一種有記憶的、多碼本的矢量量化系統(tǒng)，每個碼本對應一個狀態(tài)。輸入語音信號的矢量是根據(jù)該狀態(tài)下的一個碼本來進行量化的，用該碼本中一個碼矢的角標作為輸出。同時，F(xiàn)SVQ還應當按照建立碼本時所知的狀態(tài)轉(zhuǎn)移函數(shù)來選擇下一個輸入信號矢量應該用哪個碼本(仍然屬于當前系統(tǒng)的多碼本)來實施量化。也就是說，每一個編碼量化的狀態(tài)是由上一個狀態(tài)以及上一個編碼結(jié)果來獲得的。圖6-36FSVQ的原理框圖

FSVQ技術是以LBG(Linde-Buzo-Gray)算法為基礎的，其設計方法可以分為三步：

①

設計各初始碼本；

②

根據(jù)訓練序列獲取狀態(tài)轉(zhuǎn)移函數(shù)；

③

利用迭代法不斷改善各個碼本的功能。在構建初始碼本時，能獲得訓練序列狀態(tài)轉(zhuǎn)移的統(tǒng)計分布，同時還可以獲得狀態(tài)轉(zhuǎn)移函數(shù)。

最后，再利用訓練序列不斷地迭代訓練，來改善當前狀態(tài)下的碼本性能及狀態(tài)轉(zhuǎn)移函數(shù)，直到滿足所要求的失真。所獲得的狀態(tài)轉(zhuǎn)移函數(shù)為一個表格，根據(jù)它能夠從當前狀態(tài)sn

最小失真的碼矢角標jn

來找到下一個狀態(tài)sn+1。

如果將圖6-36所示的FSVQ用于實際的數(shù)據(jù)壓縮與傳輸，即輸入語音進行通信，就是FSVQ聲碼器。表6-2給出了FSVQ聲碼器與APVQ編碼器及一般VQ編碼器的性能比較，表中性能指標是信噪比(SNR，單位為dB)。由表可見，F(xiàn)SVQ聲碼器的性能比APVQ(AdaptivePartitionVectorQuantization)編碼器好一些，而比一般VQ編碼器好很多。

2.FSVQ語音識別器

將FSVQ技術用于語音識別時，應對上述的FSVQ聲碼器系統(tǒng)略加更改。在FSVQ聲碼器中，狀態(tài)轉(zhuǎn)移函數(shù)決定下一個輸入信號矢量應與系統(tǒng)中哪一個碼本的所有碼矢進行匹配。設待識別的字有V個，對每一個字都建立了一個碼本，則應具有V個狀態(tài)轉(zhuǎn)移函數(shù)，也就是說每個字的碼本中都存在一個狀態(tài)轉(zhuǎn)移函數(shù)

該轉(zhuǎn)移函數(shù)決定了輸入信號矢量應當和各碼本中的哪個碼本匹配，即現(xiàn)在的狀態(tài)就是某個碼本中碼矢狀態(tài)。設某個輸入單字有N個(幀)矢量，那么它們和各個碼本中的碼矢都會進行N次匹配。最后，選擇N次平均失真最小的碼本作為識別結(jié)果。

③

依次決定以后的各個狀態(tài)為

式中，k0，k1，…，kN-1是輸入矢量經(jīng)匹配后輸出的碼矢角標。

上述過程持續(xù)進行，直至對輸入的所有N個矢量都完成匹配。求得的不同碼矢的角標的個數(shù)最多有K個。所以，該字的(第i個)碼本對于輸入字來說，平均失真為

與此同時，該單字的輸入信號矢量xn(n=1，2，…，N)，也對其他V個碼本(i=1，2，…，V)進行上面的運算，那么系統(tǒng)最終輸出的字是

6.4.6-孤立字(詞)語音識別系統(tǒng)

借助于之前講解的語音識別方法，人們搭建了不同的語音識別系統(tǒng)。有一部分已應用在實際中，也有一些仍處在研究階段。在這些系統(tǒng)中，孤立字(詞)識別系統(tǒng)是研究最早、最成熟的一種。目前，對孤立字(詞)的識別，不管是小詞匯量或者大詞匯量，不管是與講話者有關還是與講話者無關，在實驗中的正確率都已經(jīng)達到了95%以上。

孤立字(詞)語音識別系統(tǒng)即對孤立發(fā)音的字或詞進行識別的系統(tǒng)。孤立字(詞)識別具有以下特點：單詞間存在停頓，能夠簡化識別問題；單詞間斷點的檢測也較為容易；單詞間協(xié)同發(fā)音產(chǎn)生的影響比較小；通常對于孤立單詞的發(fā)音較為認真等，所以這種系統(tǒng)所需解決的問題比較少，容易實現(xiàn)。孤立字(詞)語音識別系統(tǒng)用途甚廣，它的許多技術對于其他類型語音識別系統(tǒng)有著通用性并且容易推廣，所以補充少量的知識就能夠用于其他類型語音識別系統(tǒng)(如在識別的部分添加合適語法信息就能夠用于連續(xù)語音的識別)。

孤立字(詞)語音識別系統(tǒng)通常以孤立字(詞)作為識別單位，其識別基元為直接取孤立字(詞)。系統(tǒng)中使用的識別方法通常有下面幾種：

(1)基于判別函數(shù)與準則的識別方法。

(2)基于DTW算法的識別方法。

(3)基于矢量量化技術的識別方法。

(4)基于HMM模型的識別方法。

(5)基于人工神經(jīng)網(wǎng)絡的識別方法。

(6)基于混合技術的識別方法。

不論是何種方案，孤立字(詞)語音識別系統(tǒng)都可以用如圖6-37所示的原理框圖表示。圖6-37孤立字(詞)語音識別系統(tǒng)的原理框圖

使用HMM技術進行孤立字(詞)語音識別已經(jīng)做了許多實驗。圖6-38是一個含有VQ/HMM的孤立字(詞)語音識別系統(tǒng)。圖6-38含有VQ/HMM的孤立字(詞)語音識別系統(tǒng)

圖6-38中使用的HMM是一個具有5個狀態(tài)的從左到右模型，具有有限的、規(guī)則的狀態(tài)轉(zhuǎn)移，如圖6-39所示。圖6-39圖6-38中使用的HMM

6.4.7連續(xù)語音識別系統(tǒng)

孤立字(詞)語音識別基本上是建立在數(shù)學方法(包括統(tǒng)計分析、信息論、信號處理和模式分類)基礎上的，它是不含“語言”的知識。盡管這些技術在很大程度上可推廣到連續(xù)語音識別中，但連續(xù)語音識別比孤立語音識別要困難得多，存在很多特殊的問題。DTW技術在處理小詞匯量孤立詞的語音識別問題上雖然是有效的，但是在大詞匯量、非特定人、連續(xù)語音識別問題上卻是無力的。在連續(xù)語音識別中，協(xié)同發(fā)音現(xiàn)象是最大的問題。所謂協(xié)同發(fā)音，是指同一音素的發(fā)音隨上下文不同而變化。

新的識別方法中除了DTW、VQ、HMM技術等之外，重要的還有人工神經(jīng)網(wǎng)絡識別法和模糊數(shù)學識別法，尤其是前者的研究方興未艾。20世紀80年代中后期，探討人工神經(jīng)網(wǎng)絡在語音信號處理中應用的研究十分活躍，特別是在語音識別方面的應用最令人矚目。

協(xié)同發(fā)音和語音多變性問題使得大詞匯量非特定人連續(xù)語音識別成為一個非常具有挑戰(zhàn)性的研究課題。多年來，雖然進行了大量研究，但一直沒有取得明顯的進展。直到在語音識別系統(tǒng)中全采用HMM統(tǒng)一框架，該問題才得到了解決。

參照圖6-40，每個句子由若干詞條構成。圖6-40采用HMM統(tǒng)一框架的語音識別模型

6.5本

章

小

結(jié)

本章主要研究語音信號合成和語音識別的基本技術和方法。在語音信號合成中，重點分析了共振峰合成法、線性預測編碼合成法、基音同步疊加法和文語轉(zhuǎn)換系統(tǒng)。在語音識別中，重點介紹了語音識別原理、特征表示與提取、動態(tài)時間規(guī)整、有限狀態(tài)矢量量化技術、孤立字(詞)語音識別系統(tǒng)和連續(xù)語音識別系統(tǒng)等。本章以基礎的數(shù)字語音信號為研究對象，分析了其合成和識別的處理方法，為后續(xù)數(shù)字圖像/視頻等復雜信號的處理技術研究奠定了基礎。第7章

數(shù)字圖像/視頻處理技術7.1圖像的低層視覺處理7.2圖像的中層視覺處理7.3視頻處理中的關鍵技術研究7.4本章小結(jié)

7.1圖像的低層視覺處理

7.1.1概述圖像的低層視覺處理主要是指通過各種濾波器來實現(xiàn)圖像增強。圖像濾波即在盡量保留圖像細節(jié)特征的條件下對目標圖像的噪聲進行抑制，是圖像預處理中不可缺少的操作，其處理效果的好壞將直接影響到后續(xù)圖像處理和分析的有效性和可靠性。

圖像增強方法按作用域可分為空域法和頻域法兩類。空域法直接對圖像中像素灰度值進行操作。常用的空域法包括圖像的灰度變換、直方圖修正、空域平滑、銳化處理和彩色增強等，本節(jié)重點介紹空域濾波增強。頻域法是在圖像的變換域中，對圖像的變換值進行操作，然后經(jīng)逆變換獲得所需的增強結(jié)果。常用的方法包括低通濾波、高通濾波以及同態(tài)濾波等。

7.1.2空域濾波增強

空域濾波是在圖像空間中借助模板進行鄰域操作完成的，根據(jù)其特點一般可分為線性和非線性兩類。線性系統(tǒng)的轉(zhuǎn)移函數(shù)和脈沖函數(shù)或點擴散函數(shù)構成傅里葉變換對，所以線性濾波器的設計常常基于對傅里葉變換的分析。非線性空間濾波器則一般直接對鄰域進行操作。另外，各種空域濾波器根據(jù)功能又主要分成平滑的和銳化的。平滑可用低通濾波實現(xiàn)。

平滑的目的又可分為兩類：一類是模糊，目的是在提取較大的目標前去除太小的細節(jié)或?qū)⒛繕藘?nèi)的小間斷連接起來；另一類是消除噪聲。銳化可用高通濾波實現(xiàn)。銳化的目的是為了增強被模糊的細節(jié)。空間濾波器的工作原理可借助頻域進行分析。它們的基本特點是讓圖像在傅里葉空間某個范圍內(nèi)的分量受到抑制而讓其他分量不受影響，從而改變輸出圖像的頻率分布，以達到增強的目的。

圖像增強中用到的空間濾波器主要有兩類。一類是平滑(低通)濾波器，它能減弱或消除傅里葉空間的高頻分量，但不影響低頻分量。因為高頻分量對應圖像中的區(qū)域邊緣等灰度值變化較大較快的部分，濾波器將這些分量濾去可使圖像平滑。另一類是銳化(高通)濾波器，它能減弱或消除傅里葉空間的低頻分量，但不影響高頻分量。

1.平滑濾波器

1)鄰域平均法

鄰域平均法是經(jīng)典的線性濾波器方法。我們知道，圖像中的大部分噪聲是隨機噪聲，其對某一像素點的影響可以看成是孤立的。因此，噪聲點與該像素點的鄰近各點相比，其灰度值有顯著的不同(突跳變大或變小)。基于這一事實，可以采用鄰域平均的方法來判定圖像中每一像素點是否有噪聲，并用適當?shù)姆椒▉頊p弱或消除該噪聲。

圖7-1像素點(m，n)和其鄰域的坐標示意圖

鄰域平均能很大程度上削弱噪聲，但同時會引起失真，具體表現(xiàn)為圖像中目標物的邊緣或細節(jié)變模糊。圖像鄰域平均示例如圖7-2所示。圖7-2圖像鄰域平均示例

2)中值濾波法

中值濾波法是經(jīng)典的非線性濾波方法。我們知道，低通濾波器在消除噪聲的同時會使圖像中的一些細節(jié)變模糊。在含噪圖像中，噪聲往往以孤立點的形式出現(xiàn)，尤其是干擾脈沖和椒鹽噪聲。這些噪聲所占的像素很少，而圖像則是由像素

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

數(shù)字音視頻處理課件第6-9章數(shù)字音頻處理技術 -數(shù)字音視頻技術的交叉應用

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

數(shù)字音視頻處理 課件 第6-9章 數(shù)字音頻處理技術 -數(shù)字音視頻技術的交叉應用

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

數(shù)字音視頻處理課件第6-9章數(shù)字音頻處理技術 -數(shù)字音視頻技術的交叉應用