數字音視頻處理 課件 第4章 音頻壓縮編碼_第1頁
數字音視頻處理 課件 第4章 音頻壓縮編碼_第2頁
數字音視頻處理 課件 第4章 音頻壓縮編碼_第3頁
數字音視頻處理 課件 第4章 音頻壓縮編碼_第4頁
數字音視頻處理 課件 第4章 音頻壓縮編碼_第5頁
已閱讀5頁,還剩83頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第4章

音頻壓縮編碼4.1音頻壓縮概述4.2音頻編碼技術4.3MPEG音頻編碼標準4.4音頻壓縮編碼在前沿科技中的應用4.5本章小結

4.1音頻壓縮概述

4.1.1音頻信號音頻信號(audiosignals)是表示機械波的信號,是機械波的波長、強度變化的信息載體。根據機械波的特征,可分為規則信號和不規則信號,其中規則信號又可以分為語音、音樂和音效等。

數字音頻信號就是將模擬音頻信號進行采樣、量化和編碼后所得到的信號。常見的數字音頻分類如表4-1所示。

4.1.2音頻壓縮的必要性和可能性

1.必要性

音頻信息在人們的工作和生活中具有非常重要的作用,數字化音頻信息的數據量也相當巨大,為更好地存儲、傳輸和使用數字化的音頻信息,需要對音頻信息進行標準化的編碼壓縮。

2.可行性

既然音頻壓縮如此重要,那么我們是否可以對數字化后的音頻信號進行壓縮呢?回答是肯定的。統計分析表明,無論是語音還是音樂信號,都存在著多種冗余,包括時域冗余、頻域冗余和聽覺冗余。由此,數字音頻壓縮編碼主要基于兩種途徑:一種是去除聲音信號中的冗余部分;另一種是利用人耳的聽覺特性,將聲音中與聽覺無關的不相關部分去除。

聲音信號中的不相關部分是基于人耳的聽覺特性,因為人耳對信號幅度、頻率和時間的分辨能力是有限的。壓縮編碼就是要將那些人耳可感知的信息傳遞出去,而舍去那些感知不到的信息,在可接受的信號質量下降的前提下,取得較低的比特率。為了達到這樣的目的,必須充分利用人耳聽覺的心理聲學特性。人耳聽覺系統的特性有三個。第一個特性是人耳對各頻率的靈敏度是不同的。在2~5kHz頻段,很低的信號電平就能被人耳聽到;在其他頻段時,相對要高一點的信號電平才能被聽到。這樣可以將輸入信號與最小聽覺閾值相比較,去除那些低于閾值的信號,從而可以壓縮數據。

第二個特性是頻率之間的掩蔽效應(FrequencyMaskingEffect)。當高電平的頻率點信號和低電平的不同頻率點信號同時出現時,將聽不到電平低的頻率點的聲音,因而,可以不對低于掩蔽閾值的信號進行編碼,對高于掩蔽閾值的信號重新分配量化比值。第三個特性是時域的掩蔽效應(Temporal

MaskingEffect)。它是指在一個強信號之前或之后的弱信號如果被遮蔽掉,也可以不進行編碼。

4.2音頻編碼技術

音頻壓縮技術是指對原始數字音頻信號流運用一定的數字信號處理技術,在不降低有用信息量或者是降低的信息量可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼。它的逆變換稱為解壓縮或解碼。音頻信號在通過一個編解碼器后可能引入一定的失真和大量的噪聲。

對數字音頻信息的壓縮主要是依據音頻信息自身的相關性以及人耳對音頻信息的聽覺冗余度。音頻信息在編碼技術中通常分成兩類來處理:分別是語音和音樂,各自采用的技術有差異。現代聲碼器的一個重要的問題是,如何把語音和音樂的編碼融合起來。語音編碼技術分為三類:波形編碼、參數編碼以及混合編碼。音樂的編碼技術主要有心理聲學模型、自適應變換編碼(頻域編碼)和霍夫曼(Huffman)編碼等技術。本節主要講述基于心理聲學模型的感知編碼。

4.2.1波形編碼

波形編碼是指直接對音頻信號時域或頻域波形采樣值進行編碼。它主要利用音頻采樣值的幅度變化規律和相鄰采樣值間的相關性進行編碼,目標是使重建后的音頻信號的波形與原音頻信號波形保持一致。由于波形編碼保留了信號原始樣值的細節變換,從而保留了信號的各種過渡特征,因此適應性強、算法復雜度低、編解碼延時短、重建音頻信號質量一般較高,但其壓縮比不高。

1.脈沖編碼調制(PCM)

采用脈沖編碼調制的模擬信號數字傳輸系統如圖4-1所示。由圖4-1可知,模擬信號經過抽樣量化以后,可以得到一系列輸出,它們共有Q個電平狀態。當Q

比較大時,如果直接量化成Q

進制信號,其抗噪聲性能將會很差,因此,通常在發射端通過編碼器將Q進制信號變換為k

位二進制數字信號。而在接收端將收到的二進制碼元經過譯碼器再還原為Q

進制信號,這種系統就是脈沖編碼調制系統。

圖4-1采用脈沖編碼調制的模擬信號數字傳輸系統

2.差分脈沖編碼調制(DPCM)

差分脈沖編碼調制是利用樣本與樣本之間存在的信息冗余度來進行編碼的一種數據壓縮技術。差分脈沖編碼調制的思想是:根據過去的樣本信號值去預測下一個樣本信號值,這個值稱為預測信號,然后對實際信號值與預測信號值之差進行量化編碼,從而減少了冗余度。它與PCM的不同之處在于,PCM是對采樣信號進行量化編碼,而DPCM是對實際信號值與預測信號值之差進行量化編碼。由于存儲或傳送的是信號差值而不是信號幅度絕對值,因此降低了傳送或存儲的數據量。此外,它還能適應大范圍變化的輸入信號。

DPCM的原理框圖如圖4-2所示。圖4-2DPCM的原理框圖

3.自適應差分編碼調制(ADPCM)

自適應差分編碼調制(AdaptiveDifferencePulseCodeModulation,ADPCM)綜合了

自適應脈沖編碼調制(AdaptivePulseCodeModulation,APCM)的自適應特性和DPCM系統的差分特性,是一種性能比較好的波形編碼。它的核心思想是:

利用自適應的特性改變量化階的大小,即用小的量化階(Step-size)來編碼小的差值,使用大的量化階來編碼大的差值;

使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值的差達到最小。ADPCM的原理框圖如圖4-3所示。接收端的譯碼器使用與發送端相同的算法,利用傳送來的信號來確定量化器和逆量化器中的量化階大小,并且用它來預測下一個接收信號的預測值。

圖4-3ADPCM的原理框圖

4.2.2參數編碼

與波形編碼不同,參數編碼又稱為聲源編碼。它是指在頻率域或其他正交變換域中對信源信號提取特征參數,并將它轉換成數字代碼進行傳輸。其反過程為解碼,主要將收到的數字經變換恢復特征參數,再根據所得的特征參數重建語音信號。

線性預測編碼(LPC)及其他各種改進型編碼都屬于參數編碼。線性預測編碼是一種非常重要的編碼方法。

線性預測器是使用過去的P

個樣本值來預測當前時刻的采樣值x(n),其預測原理如圖4-4所示。預測值xpre可以用過去P

個樣本值的線性組合來表示,有

為方便起見,式(4-1)中采用負號。殘差誤差(ResidualError)即線性預測誤差為

圖4-4LPC的預測原理

4.2.3混合編碼

計算機的發展為語音編碼技術的研究提供了強有力的工具,而大規模、超大規模集成電路的出現,則為語音編碼的實現提供了基礎。

碼本激勵線性預測編碼采取分幀技術進行編碼,其幀長一般為20~30ms,每一語音幀再被分成2~5個子幀,在每個子幀內搜索最佳的碼字矢量(簡稱碼矢量)作為激勵信號。CELP編碼流程圖如圖4-5所示。

圖4-5CELP編碼流程圖

4.2.4-感知編碼

1.理論基礎

1)心理聲學模型

心理聲學模型的核心思想是對信息量進行壓縮,同時使失真盡可能不被覺察出來。利用人耳的掩蔽效應就可以達到此目的,即較弱的聲音會被同時存在的較強的聲音所掩蓋,從而使得人耳無法聽到。在音頻壓縮編碼技術中,利用掩蔽效應就可以給不同頻率處的信號分量分配不同的量化比特數,用這種方法來控制量化噪聲,使得噪聲的能量低于掩蔽閾值,從而使得人耳感覺不到量化過程的存在。

2)聞域和臨界頻段

音頻壓縮理論建立在心理聲學模型基礎上,是從研究人耳的聽覺系統開始的。人耳實際上可看成一個多頻段的聽感分析器,在接收端的最后,它對瞬間的頻譜功率進行了重新分配,這就為音頻的數據壓縮提供了依據。

3)掩蔽效應

心理聲學模型中的一個基本概念就是聽覺掩飾特性——掩蔽效應,即一種頻率的聲音阻礙聽覺系統感受另一種頻率的聲音的現象。前者稱為掩蔽聲音(MaskingTone),后者稱為被掩蔽聲音(MaskedTone)。

掩蔽效應的基礎是感知編碼(PerceptualCoding)中的一個重要概念——臨界頻段,即人耳對不同頻率段聲音信號的反應靈敏程度有所差別。

掩蔽可分為頻域掩蔽和時域掩蔽。頻域掩蔽是指掩蔽聲與被掩蔽聲同時作用時發生掩蔽效應,即較強的音頻信號可以掩蔽臨界頻段中同時發出的較弱的信號。這種特性被稱為頻域掩蔽,也稱為同時掩蔽(SimultaneousMasking)。這時,掩蔽聲在掩蔽效應發生期間一直起作用,是一種較強的掩蔽效應。也就是說,如果在某一頻段出現了一個較強的信號,那么該頻段中低于某一門檻值的信號都將被強信號掩蔽掉,成為人耳不可聽聞的信號。

2.感知編碼原理

感知編碼首先分析輸入信號的頻率和振幅,然后將其與人的聽覺感知模型進行比較。編碼器用這個模型去除音頻信號的不相關部分及統計冗余部分。盡管這個方法是有損的,但人耳通常感覺不到編碼信號質量的下降。感知編碼器可以將一個聲道的比特速率從768kb/s降至128kb/s,將字長從16b/s減少至平均值2.67b/s,數據減少了約83%。

一般感知編碼器采用兩種比特分配方案:一種是前向自適應分配方案,即所有的分配都在編碼器上進行,這個編碼信息也包含在比特流中。前向自適應編碼的一個突出優點是在編碼器中采用了心理聲學模型,它利用編碼數據完全地重建信號。當改進了編碼器中的心理聲學模型后,可以利用現有的解碼器來重建信號。這種方法的一個缺點是需要占用一些比特位來傳遞分配信息。

另一種是后向自適應分配方案,即比特分配信息可以直接從編碼的語音信號中推導出來,不需要編碼器中詳細的分配信息,分配信息也就不占用比特位。然而解碼器中的比特位分配信息是根據有限的信息推導出來的,從而降低了精度。另外,解碼器相應地比較復雜,而且不能輕易地改變心理聲學模型。

由于感知編碼器是根據人耳的靈敏度來編碼的,它也可以輸出音效系統所要求的響應。實況播送的音樂不需要通過放大器和揚聲器而直接進入人的耳朵,但是錄制的音樂必須通過放音系統。由于感知編碼器去除了不可聽的信號成分,從邏輯上講,加強了放音系統傳送可聽聲音的能力。簡言之,感知編碼器很適合對需要經過音頻系統的音頻信號編碼。感知編碼器的原理框圖如圖4-6所示。

圖4-6感知編碼器的原理框圖

既然聲音的掩蔽作用和頻段有關,所以有必要將輸入的聲音信號分成許多子帶以逼近人耳的臨界頻帶響應。濾波器組子帶的劃分如圖4-7所示。圖4-7濾波器組子帶的劃分

3.感知編碼技術

1)子帶編碼

子帶編碼理論的基本思想是將信號分解為若干子頻帶內的分量之和,然后對各子帶分量根據其不同的分布特性采取不同的壓縮策略以降低碼率。

2)變換編碼

在變換編碼中,將時域音頻信號變換到頻域。編碼器中的變換方法可以采用離散傅里葉變換或改進的離散余弦變換。變換能近似地對基膜沿其長度針對振動的頻率成分進行分析。變換的系數根據心理聲學模型進行量化。

圖4-8所示的是一個自適應變換編碼的示例,即使用FFT和循環量化方法來達到最佳壓縮效果的自適應變換編碼。信號經過DCT(離散余弦變換)變換到頻率域,利用頻譜系數計算每個臨界頻段的信號能量,以決定每個臨界頻段的掩蔽閾值。用兩個重復的循環進行量化,使用分析合成技術進行編碼。計算對信號編碼需要的比特數,如果超過了允許分配給這塊數據的比特數,就取較大的量化臺階,重新計算所需的比特數。在重建信號中外循環計算可能出現量化誤差,如果誤差超出了掩蔽模型所允許的范圍,就適當減小這個子帶的量化臺階。所有循環不斷地重復,直至達到最佳編碼效果。這樣的編碼器可適用于低比特速率信號。

圖4-8使用FFT和循環量化方法來達到最佳壓縮效果的自適應變換編碼

4.3MPEG音頻編碼標準

4.3.1MPEG-1音頻壓縮編碼標準

MPEG-1標準的第三部分(ISO/IEC11172-3)稱為MPEG1Audio。MPEG-1Audio的壓縮編碼技術采用的是MUSICAM(掩蔽型通用子帶綜合編碼和復用)方案,它是基于兩種機理來減少音頻信號碼率的:一是利用統計相關性,去除音頻信號的冗余;二是利用人耳的心理聲學現象(如頻率掩蔽和時間掩蔽等)去除聽覺冗余。

MPEG1Audio按照壓縮編碼復雜程度規定了三個層次,即LayerⅠ、LayerⅡ和LayerⅢ,每個層次針對不同的應用,但是三個層次的基本模型是相同的。每個后繼的層都有更高的壓縮比,但需要更復雜的編解碼器。三個層次的解碼器后向兼容,即LayerⅢ的解碼器可以對三個層次的碼流解碼,LayerⅡ

解碼器可以解碼LayerⅠ

和LayerⅡ,LayerⅠ解碼器只能解碼LayerⅠ。三個層次的分述如下:

(1)LayerⅠ是簡單型,通常目標碼率為每通道192kb/s,立體聲碼率為384kb/s,壓縮比為1∶4。LayerⅠ被廣泛應用在VCD的音頻壓縮方案中。

(2)LayerⅡ是以LayerⅠ為基礎的,但壓縮編碼的復雜度增加了。通常目標碼率為每通道128kb/s,立體聲碼率為256kb/s,壓縮比為1∶6。LayerⅡ廣泛應用于數字音頻廣播和數字電視演播室等數字音頻專業的制作、交流、存儲和傳送。

(3)LayerⅢ采用混合壓縮技術,復雜度相對較高。LayerⅢ

通過使用非均勻量化、自適應分割和量化后的熵編碼來提高編碼效率。目標碼率為每通道64kb/s,立體聲碼率為128kb/s,壓縮比為1∶12。LayerⅢ在低碼率下有高品質的音質,主要應用于需要較低碼率的領域。

1.LayerⅠ

LayerⅠ音頻編碼器的原理框圖如圖4-9所示。圖4-9LayerⅠ音頻編碼器的原理框圖

1)多通道濾波器

輸入的數字音頻信號首先通過一個多通道濾波器組,變換成32個等寬頻帶子帶。這些濾波器組的輸出是臨界頻帶系數樣值,輸出樣值是經過量化的,如果一個子帶覆蓋若干個臨界頻帶,就選擇具有最小噪聲掩蔽的臨界頻帶,并利用那個臨界頻帶來計算分配給子帶量化信號的比特數。

2)心理聲學模型

心理聲學模型決定各個子帶中允許的最大量化噪聲,小于它的量化噪聲都會被掩蔽。如果子帶內的信號功率低于掩蔽閾值,不進行編碼;否則,需要確定編碼的系數所需的比特數,使量化引起的噪聲低于掩蔽效應。MPEG音頻心理聲學模型主要實現步驟如下:

(1)用FFT將音頻樣值轉換到頻域。

(2)將得到的頻率組成臨界頻帶。

(3)在臨界頻帶的譜值中,將單音(似正弦)和非單音(似噪聲)分開。

(5)計算由臨界頻帶引起的每個子帶的掩蔽值。

(6)計算每個子帶的信號掩蔽比(SignaltoMaskRatio,SMR),即將子帶的信號能量除以子帶的最小掩蔽閾值。一組32個SMR(每個子帶含有1個)構成模型的輸出。

(7)最后將該子帶的最大信號與掩蔽閾值的比值輸入量化器。

3)比特分配

比特分配過程決定分配給各個子帶的編碼比特數,分配的依據是心理聲學模型的信息。LayerⅠ和LayerⅡ的比特分配過程是從計算掩蔽噪聲比開始的,即

式中,MNR為掩蔽噪聲比(MaskingtoNoiseRatio);SNR為信號噪聲比(SignaltoNoiseRatio);SMR為從心理聲學模型中得到的信號掩蔽比,所有的值都用dB表示。

4)比例因子

按輸入信號的大小來縮放量化步長,輸入信號小用較小的量化步長,輸入信號大用較大的量化步長。為此,在對信號量化時需要知道這個量化步長有多大,需要將碼字中的比特分為兩組,一組比特用來描述量化步長大小,這組比特代表幅度值的“比例因子”,其余的比特用來均勻量化與這些量化步長對應的信號,這組比特代表幅度值的“尾數”。通常,SNR取決于尾數的比特數。

5)碼流格式化——幀形成

MPEG1音頻數據是分成幀(Frame)傳送的,LayerⅠ每幀由32個子帶,每個子帶12個樣值,共384個樣值的數據組成。LayerⅠ的幀結構如圖4-10所示。圖4-10LayerⅠ的幀結構

2.LayerⅡ

LayerⅡ和LayerⅠ編碼原理類似,其不同之處有以下幾點:

(1)LayerⅡ的每個子帶不是均勻帶寬。

(2)LayerⅡ使用的FFT精度高一些,是1024點的FFT運算方式,提高了頻率的分辨率,得到原信號更準確的瞬間頻譜特性。

(3)LayerⅡ的幀長度碼流是LayerⅠ的3倍,每個子帶有三個連續的尺度因子,這就意味著帶內在進行動態比特分配時,增加了壓縮率。

(4)LayerⅡ和LayerⅠ幀結構的不同之處在于描述比特分配的比特位數是不一樣的。LayerⅡ的幀包含1152個PCM的樣值,如果取樣頻率為48kHz,一幀相當于1152/48=24ms的聲音樣值,則LayerⅡ的精確度為24ms。而對于LayerⅠ而言,精確度為8ms,如果用于編輯,則LayerⅠ更精確。

LayerⅡ音頻編碼器的原理框圖和幀碼流結構分別如圖4-11和圖4-12所示。

圖4-11LayerⅡ音頻編碼器的原理框圖

圖4-12LayerⅡ音頻編碼器的幀碼流結構

3.LayerⅢ

LayerⅢ(即MP3)采用了LayerⅠ和LayerⅡ未用到的技術。例如,使用比較好的臨界頻帶濾波器,多相/MDCT(改進余弦變換)混合濾波器組,把聲音頻帶分成非等帶寬的子帶。心理聲學模型除了使用頻域掩蔽特性和時域掩蔽特性之外,還考慮了立體聲數據的冗余,并且使用了霍夫曼編碼等,因此提高了編碼效率,即以非常低的數據率得到高保真度的音質,使得MP3在市場上得到廣泛應用。LayerⅢ音頻編碼器的原理框圖如圖4-13所示。

圖4-13LayerⅢ音頻編碼器的原理框圖

4.3.2MPEG-2音頻壓縮編碼標準

MPEG-2標準委員會定義了兩種音頻壓縮編碼算法:一種稱為MPEG-2后向兼容多聲道音頻編碼標準,簡稱為MPEG-2BC,它與MPEG-1音頻壓縮編碼算法是相互兼容的;另一種

稱為MPEG-2高級音頻編碼標準,簡稱為MPEG-2-AAC,因為它與MPEG-1音頻縮碼算法是不兼容的,所以也稱為MPEG-2NBC標準。

1.MPEG-2BC

MPEG-2BC即ISO/IEC13818-3,是一種多聲道環繞聲音頻壓縮編碼標準。

2.MPEG-2AAC

由于MPEG-2BC強調與MPEG-1的后向兼容性,不能以更低的數碼率實現高音質。為了改進這一不足,后來就產生了MPEG-2AAC,現已成為ISO/IEC13818-7國際標準。

圖4-14MPEG2AAC編碼器的原理框圖

以下對各個模塊進行簡單的介紹。

(1)增益控制。增益控制模塊用在可分級采樣率類別中,它由多相正交濾波器、增益檢測器和增益調節器組成。

(2)分析濾波器組。分析濾波器組是MPEG-2AAC系統的基本模塊,它把輸入信號從時域變換到頻域。

(3)聽覺系統感知模型。聽覺系統感知模型即心理聲學模型,它是包括MEPG-2AAC在內的所有感知音頻編碼的核心。MEPG-2AAC使用的心理聲學模型原理上與MP3所使用的模型相同,但在參數和具體計算的方面并不一樣。

(4)瞬時噪聲整形。在

中,瞬

形(TemporalNoiseShaping,TNS)模塊是用來控制量化噪聲的瞬時形狀的,解決掩蔽閾值和量化噪聲的錯誤匹配問題。

(5)聲強/耦合編碼和M/S編碼。聲強/耦合(Intensity/Coupling)編碼有多種名稱,有的稱為聲強立體聲編碼(IntensityStereoCoding),有的稱為聲道耦合編碼(ChannelCouplingCoding),它們探索的基本問題是聲道間的不相關性。

在立體聲編碼中,左右聲道具有相關性,利用“和”及“差”方法產生中間(Middle)和邊(Side)聲道替代原來的L/R聲道,M/S和L/R的關系很簡單,即

(6)預測。在信號較平穩的情況下,利用時域預測可進一步減小信號的冗余度。在MEPG2AAC編碼器中是利用前兩幀的頻譜來預測當前幀的頻譜,在要求預測的殘差的基礎上,對殘差進行量化和編碼。預測使用經過量化后重建的頻譜信號。

(7)量化。真正的壓縮是在量化模塊中進行的,前面的處理都是為量化做的預處理。量化模塊是根據心理聲學模型輸出的掩蔽閾值,把限定的比特位分配給輸入譜線,并盡量使量化所產生的量化噪聲低于掩蔽閾值,達到不可聞的目的。

(8)無損編碼。無損編碼實際上就是霍夫曼編碼,它對被量化的譜系數、比例因子和方向信息進行編碼。

2)MPEG-2AAC的類

開發MPEG-2標準采用的方法與開發MPEG-2BC標準采用的方法不同。后者采用的方法是對整個系統進行標準化;而前者采用的方法是模塊化的方法,把整個MEPG-2AAC系統分解成一系列模塊,用標準化的MEPG-2AAC工具模塊進行定義。因此,在文獻中往往把“模塊(Modular)”和“工具(Tool)”等同對待。

MEPG-2AAC為在編解碼器的復雜程度與音質之間得到折中,定義了以下三個種類:

(1)主類。

(2)低復雜度類。

(3)可擴展采樣率類:編碼器首先對音頻數據進行基本采樣率編碼,以提供基本的音頻質量和兼容性。

4.3.3MPEG-4音頻壓縮編碼標準

MPEG-4標準的目標是提供未來的交互式多媒體應用,它具有高度的靈活性和可擴展性。與以前的音頻編碼標準相比,MPEG-4增加了許多新的關于合成內容及場景描述等領域的工作,增加了可分級性、音調變化、可編輯性及延遲等新功能。MPEG-4將以前發展良好但相互獨立的高質量音頻編碼結合,計算機音樂和語音等第一次合并在一起,在諸多領域內有著高度的靈活性。

1.自然音頻編碼

對于自然音頻,為了使不同的AO滿足多方面的應用并獲得最高的音頻質量,在2~64kb/s的范圍內,MPEG4采用分級編碼的方法提供以下三種類型的編碼器或編碼工具。

1)參數編碼器

對于采樣頻率為8kHz的語音信號,參數編碼器的輸出數碼率為2~4kb/s;對于采樣頻率為8kHz或16kHz的語音或音頻信號,參數編碼器的輸出數碼率為4~16kb/s。

用諧波和隨機矢量來描述線性預測誤差是一個有效的編碼方案。當線性預測誤差信號是濁音而原信號是清音時,則采用矢量激勵編碼,該算法就稱為諧波矢量激勵編碼。圖4-15給出了HVXC編碼器的原理框圖。

圖4-15HVXC編碼器的原理框圖

HVXC的解碼過程包括以下四個步驟:

(1)參數的逆量化。

(2)對聲音幀采用正弦合成產生激勵信號并且加上噪聲分量。

(3)對非聲音幀采用查找碼書產生激勵信號。

(4)線性預測編碼合成。

HILN編碼工具允許對音樂等非語言信號以8kHz或16kHz采樣,主要實現數碼率為4~16kHz/s的編碼。其編碼的基本原理是對輸入信號進行分析,提取描述信號的參數,并對其進行編碼后組成一個復合碼流。解碼器根據這些參數合成輸出信號。圖4-16給出了HILN編碼器的原理框圖,它包括參數提取和參數編碼兩部分。

圖4-16HILN編碼器的原理框圖

HILN編碼需提取以下三類參數:

(1)諧波線:用來描述音頻信號諧波部分的基頻頻率和幅值。

(2)特征線:用來描述每個特征線的頻率和幅值。

(3)噪聲:用來描述噪聲譜的形狀。

2)碼本激勵線性預測編碼器

對于采樣頻率為8kHz的窄帶語音信號或采樣頻率為16kHz的寬帶音頻信號,碼本激勵線性預測(CodeExcitedLinearPrediction,CELP)編碼器的輸出數碼率在6~24kb/s之間。

CELP編碼器主要由激勵源和合成濾波器組成,需要時再添加一個后置濾波器,如圖4-17所示。激勵源有兩種:一種是由自適應碼本產生的周期分量;另一種是由一個或多個固定碼本產生的隨機分量。

圖4-17CELP編碼器的原理框圖

3)時間/頻率編碼器

對于16~64kb/s(采樣率高于8kHz)較高的數碼率,MPEG-4采用時/頻(T/F)編碼技術。對于更高的數碼率MPEG-4則直接采用MPEG-2的AAC標準,提供通用的音頻壓縮方法。

當數碼率為每聲道64kb/s時就是MPEG2AAC編碼標準,此時可以獲得極好的音頻質量。MPEG2AAC是MPEG-4時/頻編碼的核心。圖4-18給出了時/頻編碼器的原理框圖。

圖4-18時/頻編碼器的原理框圖

時/頻編碼器由以下五個部分組成:

(1)時域分析模塊用于提取音頻信號的增益信息,并且可以根據信號的特點來選擇音頻信號加窗長度和窗的形狀。

(2)濾波器組通過DCT變換將時域音頻信號轉換成不同頻率的頻域信號。

(3)心理聲學模型根據人的聽覺系統對不同頻率信號的聽辨靈敏度差異和掩蔽效應的不同,來決定對不同頻段的頻域信號采取相應的處理策略。

(4)頻域處理模塊根據心理聲學模型提供的參數處理各個頻段的信號。

(5)量化和編碼部分主要是對頻域信號進行編碼。

總體來說,MPEG-4的自然音頻編碼不但提供了很大的數碼率范圍,更重要的是提供了在諸多系統系數,比如信號帶寬、聲道數碼率、信號時間尺度重建、聲音音調和解碼器復雜度等方面的靈活性和可分級性。可以通過一系列的核心編碼器來實現上述的不同的可分級性。

2.合成音頻編碼

從MPEG-4標準制定開始,其焦點就已經擴展,它不僅包括傳統的編碼方法,其獨創之處在于提供了有關合成與自然內容的同步、合成音視頻場景和時空聯合等方面的描述。一種新類型的音頻編碼工具“結構化音頻(StructuredAudio)”隨之產生。結構化音頻標準提供了關于合成音樂、聲音效果和交互式多媒體場景下合成聲音與自然聲音的同步等方

面有效的、靈活的描述。MPEG-4可以通過結構化的輸入生成音頻,即合成音頻,這就使得數碼率進一步得到壓縮。

結構化音頻工具使用五種主要的元素成分,它們的描述方式與總體的解碼框架流程是統一的。

1)結構化音頻交響樂語言(StructuredAudioOrchestraLanguage,SAOL)

SAOL是標準核心的合成描述語言。它是一種數字信號處理語言,可應用于任意合成的傳輸描述及部分比特流效果算法的描述。

2)結構化音頻樂譜語言(StructuredAudioScoreLanguage,SASL)

SASL是一種較簡單樂譜的控制語言。它用來描述在聲音合成產生過程中用SAOL語言傳輸聲音產生算法是如何運作的。

3)結構化音頻采樣值分組格式(StructuredAudioSampleBankFormat,SASBF)

SASBF允許傳輸在波表合成中使用的分組的音頻采樣值數據,并描述它們使用的處理算法。

4)規范化程序表

規范化程序表描述了結構化音頻解碼過程的運行流程。它把用SASL或MIDI定義的結構聲音控制映射為實時的事件來調度處理,這個過程用規范化聲音產生算法(用SAOL描述)來定義。

5)規范化參考

規范化參考用于MIDI標準。MIDI可在結構控制中替代SASL語言。雖然MIDI在效果和靈活性上不如SASL,但MIDI對現存的一些內容和編輯工具提供了后向兼容性的支持。同時對一些MIDI命令,MPEG-4也將其語義集成到結構化音頻的工具中。

TTS(Text-To-Speech)是一種文本到語言的轉換系統,即接收文本信息作為輸入,然后輸出合成語音。MPEG-4的功能如下:

(1)按照原語音的節奏及韻律進行語音合成。

(2)能夠運用面部動畫(FacialAnimation,FA)工具對同步語音進行合成。

(3)運用文本及口型信息對活動圖像進行同步配音。

(4)在進行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論