多媒體第六講_第1頁
多媒體第六講_第2頁
多媒體第六講_第3頁
多媒體第六講_第4頁
多媒體第六講_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、3.1 3.1 音頻編碼技術音頻編碼技術2音頻的分類音頻頻率范圍 低頻聲音(Infra-sound): 0Hz20Hz 人類聽覺頻率范圍的聲音:20Hz20kHz 高頻(Ultrasound): 20kHz1GHz 超聲波(Hypersound): 1GHz10THz不同音頻的帶寬 電話語音: 200Hz3.4kHz 調(diào)幅廣播: 50Hz7kHz 調(diào)頻廣播: 20Hz15kHz 寬帶音響: 20Hz20kHz3聲音信號的數(shù)字化聲音信號的數(shù)字化對模擬信號的處理比較復雜,難于精確控制,成本高。將模擬信號轉(zhuǎn)換成數(shù)字信號,處理簡單,精確。模擬信號與數(shù)字信號模擬信號與數(shù)字信號在時間和幅度上都是連續(xù)的信號

2、稱為模擬信號在時間和幅度上都是用離散的數(shù)字表示的信號稱為數(shù)字信號4聲音信號的數(shù)字化聲音信號的數(shù)字化聲音信號的數(shù)字化聲音信號的數(shù)字化 采樣采樣在某特定時刻對模擬信號進行測量叫在某特定時刻對模擬信號進行測量叫采樣采樣。采樣的時間間隔稱為采樣的時間間隔稱為采樣周期采樣周期,采樣可分為均勻采樣,采樣可分為均勻采樣(每隔相等的一段時間進行采樣)和非均勻采樣,每秒(每隔相等的一段時間進行采樣)和非均勻采樣,每秒鐘采樣的次數(shù)稱為鐘采樣的次數(shù)稱為采樣頻率采樣頻率。 量化量化把信號幅度劃分成若干小段,若每段都是相等的,稱為把信號幅度劃分成若干小段,若每段都是相等的,稱為線性量化,否則稱為非線性量化。線性量化,否

3、則稱為非線性量化。 編碼編碼 按照一定的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)記錄按照一定的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)記錄下來,并在有效的數(shù)據(jù)中加入一些用于糾錯、同步和控下來,并在有效的數(shù)據(jù)中加入一些用于糾錯、同步和控制的信息。制的信息。5聲音信號的數(shù)字化聲音信號的數(shù)字化 采樣頻率采樣頻率根據(jù)奈奎斯特理論,采樣頻率不低于聲音信號最高根據(jù)奈奎斯特理論,采樣頻率不低于聲音信號最高頻率的兩倍。這樣就能把數(shù)字表達的聲音還原成原頻率的兩倍。這樣就能把數(shù)字表達的聲音還原成原來的聲音,稱為無損數(shù)字化。來的聲音,稱為無損數(shù)字化。 采樣精度采樣精度用樣本值的二進制位數(shù)來表示。位數(shù)越多精度越高,用樣本值的二進

4、制位數(shù)來表示。位數(shù)越多精度越高,數(shù)據(jù)量也越大。數(shù)據(jù)量也越大。6音頻編碼的目的在于壓縮數(shù)據(jù)。在進行壓縮時,要在音頻質(zhì)量、音頻編碼的目的在于壓縮數(shù)據(jù)。在進行壓縮時,要在音頻質(zhì)量、數(shù)據(jù)量、計算復雜度三方面進行考慮。數(shù)據(jù)量、計算復雜度三方面進行考慮。音頻編碼的分類:音頻編碼的分類:基于人的聽覺特性進行編碼(波形編譯碼器) 其目標是使重建語音波形保持原波形的形狀。適應性強,音頻質(zhì)量高,但壓縮比不大。如:PCM、DPCM、APCM、ADPCM基于音頻的聲學參數(shù)進行參數(shù)編碼(音源編譯碼器) 這類編碼數(shù)據(jù)率低,但質(zhì)量清晰度低。混合編碼 如,碼本激勵線性預測編碼(CELP) 數(shù)據(jù)的壓縮必然引起音頻質(zhì)量的降低。評

5、價編碼/解碼器一般根據(jù)以下幾個參數(shù):音頻質(zhì)量、數(shù)據(jù)率、編碼/解碼延時和算法復雜度。3.1.1 3.1.1 音頻編碼基礎音頻編碼基礎7音頻編碼基礎音頻編碼基礎 對于音頻質(zhì)量的評價分為客觀評定和主觀評定。客觀評對于音頻質(zhì)量的評價分為客觀評定和主觀評定。客觀評定是通過測量一些特性來評價,如定是通過測量一些特性來評價,如信噪比信噪比SNR。廣泛使用的廣泛使用的是主觀評定,以主觀意見打分(是主觀評定,以主觀意見打分(Mean Opinion Score -MOS)來度量:來度量:5 5 優(yōu);優(yōu);4 4 良;良;3 3 中;中;2 2 差;差;1 1 劣劣 數(shù)字音頻的質(zhì)量與采樣頻率和量化精度有關。數(shù)字音頻

6、數(shù)字音頻的質(zhì)量與采樣頻率和量化精度有關。數(shù)字音頻可分以下幾個等級:可分以下幾個等級:信號類型信號類型頻率范圍(頻率范圍(Hz)采樣率(采樣率(KHz)量化精度(位)量化精度(位)電話話音電話話音200340088寬帶音頻寬帶音頻5070001616調(diào)頻廣播調(diào)頻廣播2015 00037.816高質(zhì)量音頻高質(zhì)量音頻2020 00044.116SNR 10 log (Vsignal)2 / (Vnoise)220 log (Vsignal / Vnoise)8音頻編碼基礎音頻編碼基礎音質(zhì)與數(shù)據(jù)率2 4 8 16 32 64 kbits/S54321PCM波形編碼LPC混合編碼研究目標質(zhì)量其中混合編碼

7、其中混合編碼是指波形編碼是指波形編碼與音源編碼方與音源編碼方法的混合。法的混合。9音頻壓縮編碼的基本方法音頻壓縮方法無失真壓縮有失真壓縮Huffman編碼行程編碼波形編碼參數(shù)編碼矢 量 和 激 勵線 性 預 測VSELP多脈沖線性預測MP-LPC碼本激勵線性預測CELP線性預測LPC矢量量化子帶編碼自適應變換編碼ATC心理學模型全頻帶編碼PCMDPCMADPCM混合編碼10脈沖編碼調(diào)制脈沖編碼調(diào)制(Pulse Code Modulation PCM)波形編碼波形編碼AF為低通濾波器為低通濾波器,濾除聲音頻帶以外的信號;濾除聲音頻帶以外的信號;WC為采樣為采樣器;器;SS為量化間隔生成器。在量化

8、中將量化值表示成:為量化間隔生成器。在量化中將量化值表示成: x(n)=x(n)+e(n), e(n)為量化誤差(量化噪聲)為量化誤差(量化噪聲)11PCM的量化方式均勻量化又稱線性量化均勻量化又稱線性量化,用相,用相等的量化間隔對采樣得到的信等的量化間隔對采樣得到的信號作量化。這種方法對大號作量化。這種方法對大/小輸小輸入信號都用相同的量化間隔。入信號都用相同的量化間隔。 為了滿足幅度大的輸入信為了滿足幅度大的輸入信號,同時又滿足精度的要求,號,同時又滿足精度的要求,就需要增加樣本位數(shù)。話音信就需要增加樣本位數(shù)。話音信號出現(xiàn)大信號的機會不多,增號出現(xiàn)大信號的機會不多,增加的樣本位數(shù)沒有充分利

9、用。加的樣本位數(shù)沒有充分利用。12PCM的量化方式非均勻量化非均勻量化是對大的輸入信號是對大的輸入信號采用大的量化間隔,小的輸入采用大的量化間隔,小的輸入信號采用小的量化間隔,這樣信號采用小的量化間隔,這樣在滿足精度的情況下,樣本數(shù)在滿足精度的情況下,樣本數(shù)據(jù)用較少的位數(shù)來表示。據(jù)用較少的位數(shù)來表示。瞬時壓擴瞬時壓擴:根據(jù):根據(jù)CCITT的的G.711標準,對非均勻量化有標準,對非均勻量化有律壓擴律壓擴和和A律壓擴。量化前用對數(shù)函數(shù)律壓擴。量化前用對數(shù)函數(shù)將幅度壓縮,解碼后再用指數(shù)將幅度壓縮,解碼后再用指數(shù)函數(shù)進行幅度擴張。函數(shù)進行幅度擴張。13瞬時壓擴 律壓擴律壓擴 用于北美和日本等地的數(shù)字

10、電話通信中,量化輸入/輸出關系為: 為確定壓縮量的參數(shù),反映最大與最小量化間隔之比。 A A律壓擴律壓擴 用于歐洲和中國等地的數(shù)字電話通信中,量化輸入/輸出關系為:11x500100,)1ln()1ln()sgn()(xxxF11)1ln()1ln()sgn()(10)1ln()sgn()(xAAxAxxFAxAxAxxFAA65.87A11x14PCM在通信中應用在通信中應用 在電信網(wǎng)中,傳輸媒體費用約占總成本的65%,設備費用占總成本的35%。提高線路利用率的兩種方法:(1)頻分多路復用()頻分多路復用(FDM) Frequency-division multiplexing,即把傳輸信道

11、的頻帶分成好幾個窄帶,每個窄帶傳送一路信號。為確保各信道不相互干擾,相鄰子信道中留一定間隔,這是模擬載波通信的主要手段。(2 2)時分多路復用(時分多路復用(TDM) Time-division multiplexing,即把傳輸信道按時間分割,每個用戶一個時間間隔,每間隔傳輸部分信號,多用戶共用一傳輸線路,這是數(shù)字通信的主要手段。15話音的采樣頻率話音的采樣頻率f=8000Hz,其采樣周期為其采樣周期為125s,這個時間這個時間稱為一幀。在該時間內(nèi)的話路數(shù)有稱為一幀。在該時間內(nèi)的話路數(shù)有24路制和路制和30路制。路制。每秒傳輸每秒傳輸8000幀,每幀有幀,每幀有24個時間片和一個同步位,在一

12、個個時間片和一個同步位,在一個時間片內(nèi)傳輸時間片內(nèi)傳輸8位數(shù)據(jù),故一幀有位數(shù)據(jù),故一幀有24*8+1=193位,數(shù)據(jù)傳輸率為:位,數(shù)據(jù)傳輸率為: R=8000*193=1544Kb/s每個話路的傳輸率為:每個話路的傳輸率為:8000*8=64Kb/s對對30話路的傳輸率可用相同方法計算話路的傳輸率可用相同方法計算1211109876543212322214321076543210幀每幀24信道每信道8位12幀一復幀16 TMD已廣泛地應用在數(shù)字電話網(wǎng)中。通常用已廣泛地應用在數(shù)字電話網(wǎng)中。通常用“群(群(Group)”來表示來表示PCM信號的復用程度。一次群(基群)信號的復用程度。一次群(基群)

13、30或或24路,二次群路,二次群120路或路或96路,三路,三次群次群480路或路或384路。路。一次PCM多路復用電話電話一次PCM多路復用電話電話二次多路復用二次多路復用一次PCM多路復用電話電話一次PCM多路復用電話電話國家和地區(qū)國家和地區(qū)數(shù)字網(wǎng)絡等級數(shù)字網(wǎng)絡等級T1/E1T2/E2T3/E3T4/E4T5/E5美國(T1遠距離數(shù)字通信線)64KB/s話路數(shù)24966724032總傳輸率(Mb/s) 1.5446.31244.736274.176數(shù)字網(wǎng)絡等級12345歐洲(E1)(中國)64KB/s話路數(shù)3012048019207680總傳輸率(Mb/s) 2.0488.44834.36

14、8139.264560日本(T1)64KB/s話路數(shù)24964801440總傳輸率(Mb/s) 1.5446.31232.06497.72817增量調(diào)制增量調(diào)制(Delta Modulation-DM) 增量調(diào)制又稱調(diào)制,是一種預測編碼技術。增量調(diào)制又稱調(diào)制,是一種預測編碼技術。 PCM是對實際的采樣信號的整個幅度進行量化編碼,是對實際的采樣信號的整個幅度進行量化編碼,它具有對任意波形進行編碼的能力。它具有對任意波形進行編碼的能力。 DM是對實際的采樣信號值與預測值之差的極性進行編是對實際的采樣信號值與預測值之差的極性進行編碼。正用碼。正用1表示,負用表示,負用0表示。表示。DM編碼只需一位,

15、故稱編碼只需一位,故稱“1位系統(tǒng)位系統(tǒng)”。輸入信號的實際值用輸入信號的實際值用yi表示,輸入信號的預測值用表示,輸入信號的預測值用 yi = yi-1 表示。表示。 為量化階大小,假設為均勻量化。為量化階大小,假設為均勻量化。Xi表示在表示在i i點的編碼輸出。點的編碼輸出。 在開始位置,輸入信號在開始位置,輸入信號y0=0,預測值預測值y0=0,x0=1。18斜率過載斜率過載:增量大小不能跟上輸入信號的快速變化,這種現(xiàn)象增量大小不能跟上輸入信號的快速變化,這種現(xiàn)象稱為增量調(diào)制器的斜率過載。稱為增量調(diào)制器的斜率過載。粒狀噪聲粒狀噪聲:在輸入信號的緩慢變化部分,也即輸入信號與預測在輸入信號的緩慢

16、變化部分,也即輸入信號與預測值接近值接近0 0的區(qū)域,增量調(diào)制器的輸出出現(xiàn)交變的的區(qū)域,增量調(diào)制器的輸出出現(xiàn)交變的0和和1,這種現(xiàn),這種現(xiàn)象稱為增量調(diào)制器的粒狀噪聲。象稱為增量調(diào)制器的粒狀噪聲。在采樣點在采樣點i=1處,預處,預測值測值y1=,由于實,由于實際輸入信號大于預測際輸入信號大于預測值,因此值,因此x1=1; ;其他情況依此類推其他情況依此類推. .增量調(diào)制增量調(diào)制(Delta Modulation-DM)19自適應增量調(diào)制(ADM)使增量調(diào)制的量化階能自適應,也就是根據(jù)輸入使增量調(diào)制的量化階能自適應,也就是根據(jù)輸入信號斜率的變化信號斜率的變化自動調(diào)整量化階自動調(diào)整量化階的大小,以使

17、斜率過的大小,以使斜率過載和粒狀噪聲減到最小。載和粒狀噪聲減到最小。宋宋Song( (1971):):當當DM輸出值不變時,量化階增輸出值不變時,量化階增大大50%,使預測器的輸出跟上輸入信號的變化;當輸,使預測器的輸出跟上輸入信號的變化;當輸出值改變時,量化階減小出值改變時,量化階減小50%,使粒狀噪聲減到最小。,使粒狀噪聲減到最小。Greefkes于于19701970年提出的連續(xù)可變斜率增量調(diào)制年提出的連續(xù)可變斜率增量調(diào)制(CVSD):):如果輸出連續(xù)出現(xiàn)如果輸出連續(xù)出現(xiàn)3個相同的值,量化個相同的值,量化階就加一個大的增量,反之就加一個小的增量。階就加一個大的增量,反之就加一個小的增量。2

18、0自適應脈沖編碼調(diào)制自適應脈沖編碼調(diào)制(APCM)APCM (Adaptive Pulse Code Modulation)是一種根據(jù)輸入信號是一種根據(jù)輸入信號幅度大小來改變量化階大小的幅度大小來改變量化階大小的PCM方法。方法。改變量化階大小的方法有兩種:改變量化階大小的方法有兩種:前向自適應和后向自適應。前向自適應和后向自適應。前向自適應前向自適應是根據(jù)未量化的樣本是根據(jù)未量化的樣本值的均方根值來估計輸入信號的值的均方根值來估計輸入信號的電平,以此來確定量化階的大小,電平,以此來確定量化階的大小,并對其電平進行編號作為邊信息并對其電平進行編號作為邊信息傳輸?shù)浇邮芏恕鬏數(shù)浇邮芏恕:笙蜃赃m應

19、后向自適應是從量化器剛輸出的是從量化器剛輸出的過去樣本中提取量化階信息。過去樣本中提取量化階信息。21差分脈沖編碼-DPCMDPCM(Differential Pulse Code Modulation,差分脈沖編碼調(diào)制)與差分脈沖編碼調(diào)制)與PCM不同,它編碼的不不同,它編碼的不是采樣樣本值,而是樣本值及其預測值的差分,是采樣樣本值,而是樣本值及其預測值的差分,即量化的是已知的樣本值與預測值之間的差值。即量化的是已知的樣本值與預測值之間的差值。DPCM是從過去的幾個采樣值的線性組合來預是從過去的幾個采樣值的線性組合來預測推斷現(xiàn)在的采樣值,進而用實際采樣值與預測推斷現(xiàn)在的采樣值,進而用實際采樣

20、值與預測采樣值之差(稱作預測誤差)進行編碼,從測采樣值之差(稱作預測誤差)進行編碼,從而達到信息壓縮的一種方法。而達到信息壓縮的一種方法。22差分脈沖編碼調(diào)制(DPCM) 差分脈沖編碼調(diào)制是對實際樣本值與預測值之差進行編碼,差分脈沖編碼調(diào)制是對實際樣本值與預測值之差進行編碼,從而在一定程度上減少量化的位數(shù)。從而在一定程度上減少量化的位數(shù)。 預測值是根據(jù)過去的樣本值去估算的下一個樣本的幅度值。預測值是根據(jù)過去的樣本值去估算的下一個樣本的幅度值。d(k)是輸入信號是輸入信號S(k)和預和預測器輸出的估算值測器輸出的估算值Se(k-1)之差。之差。Se(k-1)是是S(k) )的的預測值。預測值。S

21、r(k)是差分信是差分信號號dq(k)與過去的樣本信與過去的樣本信號的估算值求和得到。號的估算值求和得到。DPCM的工作示意圖的工作示意圖23差分脈沖編碼差分脈沖編碼 差分脈沖編碼調(diào)制的概念如圖。差分信號差分脈沖編碼調(diào)制的概念如圖。差分信號 是離散輸入是離散輸入信號信號 和預測器輸出的估算值和預測器輸出的估算值 之差。注意,之差。注意, 是對是是對是 預測值,而不是過去樣本的實際值。預測值,而不是過去樣本的實際值。DPCMDPCM系統(tǒng)系統(tǒng)實際上就是對這個差值實際上就是對這個差值 進行量化編碼,用來補償過去進行量化編碼,用來補償過去編碼中產(chǎn)生的量化誤差。它實際上是一個負反饋系統(tǒng),編碼中產(chǎn)生的量化

22、誤差。它實際上是一個負反饋系統(tǒng),采用這種結(jié)構(gòu)可以避免量化誤差的積累。采用這種結(jié)構(gòu)可以避免量化誤差的積累。重構(gòu)信號重構(gòu)信號 是由逆量化器產(chǎn)生的量化差分信號是由逆量化器產(chǎn)生的量化差分信號 ,與對過去樣本,與對過去樣本信號的估算值信號的估算值 求和得到。它們的和,即求和得到。它們的和,即 作為預作為預測器確定下一個信號估算值的輸入信號。由于在發(fā)送端測器確定下一個信號估算值的輸入信號。由于在發(fā)送端和接收端都使用相同的逆量化器和預測器,所以收發(fā)兩和接收端都使用相同的逆量化器和預測器,所以收發(fā)兩端可以從同一個傳送信號端可以從同一個傳送信號 獲得相同的量化差分信號獲得相同的量化差分信號 和重構(gòu)信號和重構(gòu)信號

23、 。)(kd)(kS) 1( kSe) 1( kSe)(kS)(kd)(kSr)(kdq) 1( kSe)(kSr)(kSr)(kI)(kdq24ADPCM綜合了綜合了APCM的自適應特性和的自適應特性和DPCM特性。特性。自適應差分脈沖編碼調(diào)制(ADPCM) 25子帶編碼子帶編碼 (SBC)子帶編碼的主要過程是:子帶編碼的主要過程是:使用一組濾波器(使用一組濾波器(BPFBPF)把輸入音頻信號的頻帶分成若把輸入音頻信號的頻帶分成若干個連續(xù)的頻段。干個連續(xù)的頻段。對每個子帶中的音頻信號采用單獨編碼方案去編碼。可對每個子帶中的音頻信號采用單獨編碼方案去編碼。可用用PCMPCM、APCMAPCM和

24、和ADPCMADPCM等。等。在信道上傳輸時,每個子帶上的信息復合起來。在信道上傳輸時,每個子帶上的信息復合起來。在接受端,每個子帶上的信息單獨譯碼,然后把它們組在接受端,每個子帶上的信息單獨譯碼,然后把它們組合起來,還原成原來的音頻信號。合起來,還原成原來的音頻信號。26子帶編碼子帶編碼(SBC)的好處的好處每個子帶分別自適應控制,高能量電平的每個子帶分別自適應控制,高能量電平的子帶可用大的量化階去量化,以減少總的子帶可用大的量化階去量化,以減少總的量化噪聲;量化噪聲;可根據(jù)每個子帶信號在感覺上的重要性,可根據(jù)每個子帶信號在感覺上的重要性,為每個子帶分配不同的位數(shù)。為每個子帶分配不同的位數(shù)。

25、27SB-ADPCM編碼u在在子帶自適應差分脈沖編碼調(diào)制子帶自適應差分脈沖編碼調(diào)制( (sub-band adaptive differential pulse code modulation,SB-ADPCM) )技術中,用正交鏡像濾波器技術中,用正交鏡像濾波器( (QMF) )把頻把頻帶分割成兩個等帶寬的子帶,分別是高頻子帶和低帶分割成兩個等帶寬的子帶,分別是高頻子帶和低頻子帶。頻子帶。u在每個子帶中的信號都用在每個子帶中的信號都用ADPCM進行編碼,低頻進行編碼,低頻帶寬略大于常規(guī)的電話話音帶寬。對高子帶分配帶寬略大于常規(guī)的電話話音帶寬。對高子帶分配2位表示每個樣本值,而低子帶分配位表示

26、每個樣本值,而低子帶分配6 6位。因為位。因為64 kb/s的的G.722標準主要還是針對寬帶話音,其次才標準主要還是針對寬帶話音,其次才是音樂。是音樂。28音源編碼音源編譯碼的思想是從話音波形信號中提取音源編譯碼的思想是從話音波形信號中提取生成話音的參數(shù),使用這些參數(shù)通過話音生成生成話音的參數(shù),使用這些參數(shù)通過話音生成模型重構(gòu)出話音。模型重構(gòu)出話音。原始音頻原始音頻重建音頻重建音頻參數(shù)參數(shù)音源編碼原理示意圖音源編碼原理示意圖29音源編碼針對話音的音源編譯碼器叫做針對話音的音源編譯碼器叫做聲碼器聲碼器。聲碼器的原理是模仿人類聲碼器的原理是模仿人類發(fā)音器官發(fā)音器官喉、嘴、舌喉、嘴、舌的組合,將該

27、組合的組合,將該組合看作一個濾波器看作一個濾波器,人發(fā)出的聲音,人發(fā)出的聲音使使聲帶振動就成為激勵脈沖聲帶振動就成為激勵脈沖。當然。當然“濾波器濾波器” 脈脈沖頻率在不斷地變換,但在很短的時間(沖頻率在不斷地變換,但在很短的時間(10ms30ms)內(nèi)觀察它,則發(fā)音器官是沒有變換的,因內(nèi)觀察它,則發(fā)音器官是沒有變換的,因此此聲碼器聲碼器要做的事是將話音信號分成要做的事是將話音信號分成2020msms的段,然的段,然后后分析分析這一時間段內(nèi)所對應的這一時間段內(nèi)所對應的濾波器的參數(shù)濾波器的參數(shù),并,并提提取此時的脈沖串頻率取此時的脈沖串頻率,輸出其激勵脈沖序列。,輸出其激勵脈沖序列。30線性預測編碼

28、(LPC)u線性預測編碼(線性預測編碼(linear predictive coding,LPC)是音源編碼(參數(shù)編碼)的一種。是音源編碼(參數(shù)編碼)的一種。u LPC通過分析話音波形產(chǎn)生聲道激勵和轉(zhuǎn)移通過分析話音波形產(chǎn)生聲道激勵和轉(zhuǎn)移函數(shù)的參數(shù),其實質(zhì)就是對這些參數(shù)進行編函數(shù)的參數(shù),其實質(zhì)就是對這些參數(shù)進行編碼;接收端根據(jù)這些參數(shù)通過語音合成器重碼;接收端根據(jù)這些參數(shù)通過語音合成器重構(gòu)話音。構(gòu)話音。u合成器是一個離散的隨時間變化的時變線性合成器是一個離散的隨時間變化的時變線性濾波器。濾波器。LPCLPC要編碼的就是這濾波器的系數(shù)要編碼的就是這濾波器的系數(shù)。31線性預測編碼(LPC)u濾波器又

29、是預測器,它描述為過去濾波器又是預測器,它描述為過去P P個樣本的線個樣本的線性組合。性組合。uLPCLPC假定由無聲話音段假定由無聲話音段( (白噪聲白噪聲) )激勵激勵 或有聲話音或有聲話音段段( (脈沖串脈沖串) )激勵。解碼時,需知道濾波器參數(shù)外,激勵。解碼時,需知道濾波器參數(shù)外,還需知道采用何種激勵及其特征如何。還需知道采用何種激勵及其特征如何。32音源編碼簡化的聲音生成模型簡化的聲音生成模型聲道模型聲道模型121(12)preppkkxa x na x na x npa x nk 0( )( )( )()ppreike nx nxna x nk33混合編譯碼 混合編譯碼的想法是企圖

30、填補波形混合編譯碼的想法是企圖填補波形編譯碼和音源編譯碼之間的間隔。波形編譯碼和音源編譯碼之間的間隔。波形編譯碼器雖然可提供高話音的質(zhì)量,但編譯碼器雖然可提供高話音的質(zhì)量,但數(shù)據(jù)率低于數(shù)據(jù)率低于16 kb/s的情況下,在技術上的情況下,在技術上還沒有解決音質(zhì)的問題;聲碼器的數(shù)據(jù)還沒有解決音質(zhì)的問題;聲碼器的數(shù)據(jù)率雖然可降到率雖然可降到2.4 kb/s甚至更低,但它的甚至更低,但它的音質(zhì)根本不能與自然話音相提并論。音質(zhì)根本不能與自然話音相提并論。 34混合編譯碼 為了得到音質(zhì)高而數(shù)據(jù)率又低的編譯碼器,為了得到音質(zhì)高而數(shù)據(jù)率又低的編譯碼器,歷史上出現(xiàn)過很多形式的混合編譯碼器,但最成歷史上出現(xiàn)過很多

31、形式的混合編譯碼器,但最成功并且普遍使用的編譯碼器是時域合成功并且普遍使用的編譯碼器是時域合成- -分析分析( (analysis-by-synthesis, AbS) )編譯碼器。編譯碼器。 這種編譯碼器使用的聲道線性預測濾波器模這種編譯碼器使用的聲道線性預測濾波器模型與線性預測編碼型與線性預測編碼( (linear predictive coding,LPC) )使用的模型相同,不使用兩個狀態(tài)使用的模型相同,不使用兩個狀態(tài)( (有聲有聲/ /無聲無聲) )的模型來尋找濾波器的輸入激勵信號,而的模型來尋找濾波器的輸入激勵信號,而是企圖尋找一種激勵信號,使用這種信號激勵產(chǎn)是企圖尋找一種激勵信號

32、,使用這種信號激勵產(chǎn)生的波形盡可能接近于原始話音的波形。生的波形盡可能接近于原始話音的波形。35混合編碼 AbSAbS通過調(diào)節(jié)激勵信號通過調(diào)節(jié)激勵信號u, ,使話音輸入使話音輸入s與重構(gòu)信與重構(gòu)信號之差為最小。它通過合號之差為最小。它通過合成許多不同的近似值來分成許多不同的近似值來分析輸入話音信號,這正是析輸入話音信號,這正是其名稱的由來。其名稱的由來。 譯碼器端根據(jù)濾波器的譯碼器端根據(jù)濾波器的參數(shù)和激勵信號,通過合參數(shù)和激勵信號,通過合成濾波器重構(gòu)話音。成濾波器重構(gòu)話音。36混合編碼 AbS編譯碼器由Atal和Remde在1982年首次提出,并命名為多脈沖激勵(multi-pulse exc

33、ited,MPE)編譯碼器,在此基礎上隨后出現(xiàn)的是等間隔脈沖激勵(regular-pulse excited,RPE)編譯碼器、碼激勵線性預測CELP(code excited linear predictive)編譯碼器和混合激勵線性預測(mixed excitation linear prediction,MELP)等編譯碼器。 MPE,RPE和CELP編譯碼器之間的差別在于所使用的激勵信號的表示方法。37 CCITT和和ISO先后提出了一系列有關音頻先后提出了一系列有關音頻的編碼建議。的編碼建議。 分別應用于窄帶話音信號、寬帶話音信號、分別應用于窄帶話音信號、寬帶話音信號、圖像伴音信號、

34、數(shù)字移動通信圖像伴音信號、數(shù)字移動通信GSM信號等等。信號等等。3.1.2 編碼標準介紹編碼標準介紹38音頻編碼算法和標準一覽音頻編碼算法和標準一覽算法算法名稱名稱數(shù)據(jù)率數(shù)據(jù)率標準標準應用應用質(zhì)量質(zhì)量 波波 形形 編編 碼碼PCM均勻量化均勻量化公用網(wǎng)公用網(wǎng)ISDN配音配音4.04.5(A)(A(A) )64kb/sG.711APCM自適應量化自適應量化DPCM差值量化差值量化ADPCM自適應差值量化自適應差值量化32kb/sG.721SB-ADPCM子帶子帶- -自適應差自適應差值量化值量化64kb/sG.722參數(shù)編碼參數(shù)編碼LPC線性預測編碼線性預測編碼2.4kb/s保密話聲保密話聲2.

35、53.5 混混 合合 編編 碼碼CELPC碼激勵碼激勵LPCLPC4.8kb/s移動通信移動通信4.03.7VSELP矢量和激勵矢量和激勵LPCLPC8kb/s語音郵件語音郵件RPE-LTP長時預測規(guī)則碼長時預測規(guī)則碼激勵激勵13.2kb/sISDNLD-CELP低延時碼激勵低延時碼激勵LPCLPC16kb/sG.728G.729MPEG多子帶感知編碼多子帶感知編碼128kb/sCD5.0AC-3感知編碼感知編碼音響音響5.039電話質(zhì)量的語音壓縮標準 ITUTS建議的語音壓縮的標準建議的語音壓縮的標準 G.711:采用采用PCM編碼,采樣速率為編碼,采樣速率為8kHz,量化位數(shù)為量化位數(shù)為8

36、bit,對應的比特流速率為對應的比特流速率為64 kbit/s。 G.721: ITU建議的建議的G.721將將64Kbps的比特的比特流轉(zhuǎn)換為流轉(zhuǎn)換為32Kbps的流,它是基于的流,它是基于ADPCM技術。技術。每個數(shù)值差分用每個數(shù)值差分用4位編碼,其采樣率為位編碼,其采樣率為8kHz。40電話質(zhì)量的語音壓縮標準 G.723: G.723是是ITU制定的適用于制定的適用于IP電話的語音編碼電話的語音編碼,因其高質(zhì)量、低碼率而得到廣泛應用。因其高質(zhì)量、低碼率而得到廣泛應用。G.723為雙速為雙速率語音編碼器,有率語音編碼器,有5.3和和6.4 kbps兩種工作狀態(tài),可隨兩種工作狀態(tài),可隨時切換

37、,分別采用代數(shù)碼線性預測激勵(時切換,分別采用代數(shù)碼線性預測激勵(ACELP)和多脈沖最大似然量化(和多脈沖最大似然量化(MP-MLQ)激勵的編碼器。)激勵的編碼器。其音質(zhì)不如非壓縮的其音質(zhì)不如非壓縮的 G.711PCM 標準以及基于標準以及基于 SB-ADPCM 的的 G.722標準。標準。G.723.1和和G.723.2用于用于H.324標準。標準。 G.728:它的比特率為它的比特率為16Kbps,帶寬限于帶寬限于3.4kHz。其其音質(zhì)與音質(zhì)與32Kbps的的G.721標準相當。它基于一種稱為低標準相當。它基于一種稱為低延遲代碼激勵線性預測延遲代碼激勵線性預測(LDCELP)的向量量化技

38、術。的向量量化技術。 41G.721 ADPCM編譯碼器G.711標準是標準是CCITT為話音信號頻率為為話音信號頻率為3003400 Hz制定的編譯碼標準,其采樣率為制定的編譯碼標準,其采樣率為8 kHz、8位位/ /樣本、樣本、數(shù)據(jù)率為數(shù)據(jù)率為64 kb/s,屬于窄帶音頻信號編碼。現(xiàn)代的話,屬于窄帶音頻信號編碼。現(xiàn)代的話音編碼技術已經(jīng)可以減少數(shù)據(jù)率,而又不致于顯著降音編碼技術已經(jīng)可以減少數(shù)據(jù)率,而又不致于顯著降低音質(zhì)。低音質(zhì)。CCITT又制定了又制定了8 kHz采樣率、采樣率、4位位/ /樣本、樣本、32 kb/s的的G.721標準標準,以及,以及G.721的擴充標準的擴充標準G.723。

39、CCITT推薦的推薦的G.721 ADPCM標準是一個代碼轉(zhuǎn)換標準是一個代碼轉(zhuǎn)換系統(tǒng)。它使用系統(tǒng)。它使用ADPCMADPCM轉(zhuǎn)換技術,實現(xiàn)轉(zhuǎn)換技術,實現(xiàn)64 kb/s A律或律或律律PCM速率和速率和32 kb/s速率之間的相互轉(zhuǎn)換速率之間的相互轉(zhuǎn)換。42圖中,圖中,A律或律或律律PCM輸入信號轉(zhuǎn)換成均勻輸入信號轉(zhuǎn)換成均勻PCM。差分信號等于均勻差分信號等于均勻PCM輸入信號與預測信號之差。輸入信號與預測信號之差。“自適應量化器自適應量化器”用用4 4位二進制數(shù)表示差位二進制數(shù)表示差分信號,但只用分信號,但只用1515個數(shù)個數(shù)( (即即1515個量級個量級) )來表示差分信號,以防止出現(xiàn)全來表

40、示差分信號,以防止出現(xiàn)全“0 0”信號。信號。“逆自適應量化器逆自適應量化器”從這從這4位相同的代碼中產(chǎn)生量化差分信號。預測位相同的代碼中產(chǎn)生量化差分信號。預測信號和這個量化差分信號相加產(chǎn)生重構(gòu)信號。信號和這個量化差分信號相加產(chǎn)生重構(gòu)信號。“自適應預測器自適應預測器”根據(jù)重構(gòu)根據(jù)重構(gòu)信號和量化差分信號產(chǎn)生輸入信號的預測信號,這樣就構(gòu)成了一個負反饋信號和量化差分信號產(chǎn)生輸入信號的預測信號,這樣就構(gòu)成了一個負反饋回路。回路。G.721 ADPCM編譯碼器的輸入信號是編譯碼器的輸入信號是G.711 PCM代碼代碼,采樣率是,采樣率是8 kHz,每個代碼用每個代碼用8位表示,因此它的數(shù)據(jù)率為位表示,因

41、此它的數(shù)據(jù)率為64 kb/s。而而G.721 ADPCM的的輸出代碼是輸出代碼是“自適應量化器自適應量化器”的輸出,該的輸出,該輸出是用輸出是用4位表示的差分信號,它位表示的差分信號,它的采樣率仍然是的采樣率仍然是8 kHz,它的數(shù)據(jù)率為它的數(shù)據(jù)率為32 kb/s,這樣就獲得了這樣就獲得了2 1的數(shù)據(jù)壓的數(shù)據(jù)壓縮。縮。43電話質(zhì)量的語音壓縮標準 CELP( (碼本激勵線性預測碼本激勵線性預測) )是一種常用的語是一種常用的語音壓縮技術。它用于美國聯(lián)邦標準音壓縮技術。它用于美國聯(lián)邦標準1016,可將語,可將語音壓縮至音壓縮至4.8Kbps。美國聯(lián)邦標準美國聯(lián)邦標準1015使用使用 CELP的一個

42、簡本,稱為線性預測編碼的一個簡本,稱為線性預測編碼( (LPC) )。 LPC10E標準可以運行于標準可以運行于2.4Kbps。采用了一種采用了一種向量量化方法。聲音聽起來有點象機器在說話,向量量化方法。聲音聽起來有點象機器在說話, 但但4.8Kbps與電話差不多。與電話差不多。 這兩種標準主要用于這兩種標準主要用于保密話音通信保密話音通信。44調(diào)幅廣播質(zhì)量的音頻壓縮標準 調(diào)幅廣播質(zhì)量:調(diào)幅廣播質(zhì)量:50Hz7kHz,稱稱“7kHz音頻信號音頻信號”。 若使用若使用16Khz的采樣頻率和的采樣頻率和14位的量化位數(shù),則調(diào)幅位的量化位數(shù),則調(diào)幅廣播的信號速率為廣播的信號速率為224kbps,19

43、88年年ITU制定了制定了G.722標準標準把信號速率壓縮成把信號速率壓縮成64kpbs。 G.722標準的數(shù)據(jù)率保持標準的數(shù)據(jù)率保持64kb/s,但音頻信號采樣頻,但音頻信號采樣頻率由率由8kHz提高到提高到16kHz,是是G.711PCM采樣率的采樣率的2倍,因倍,因而被編碼信號的頻率由原來的而被編碼信號的頻率由原來的3.4 kHz擴展到擴展到7 kHz。這就這就使音頻信號的質(zhì)量有很大改善,由數(shù)字電話的話音質(zhì)量提使音頻信號的質(zhì)量有很大改善,由數(shù)字電話的話音質(zhì)量提高到調(diào)幅高到調(diào)幅( (AM) )無線電廣播的質(zhì)量。對話音信號質(zhì)量來說,無線電廣播的質(zhì)量。對話音信號質(zhì)量來說,提高采樣率并無多大改善

44、,但對音樂一類信號來說,其質(zhì)提高采樣率并無多大改善,但對音樂一類信號來說,其質(zhì)量卻有很大提高。量卻有很大提高。45G.722 SB-ADPCM標準標準 G.722編譯碼系統(tǒng)采用子帶自適應差分脈沖編編譯碼系統(tǒng)采用子帶自適應差分脈沖編碼調(diào)制碼調(diào)制( (sub-band adaptive differential pulse code modulation,SB-ADPCM) )技術。在技術。在G.722編譯碼編譯碼系統(tǒng)中,用正交鏡像濾波器將頻帶分為高、低兩系統(tǒng)中,用正交鏡像濾波器將頻帶分為高、低兩個個獨立的子帶信道分別采用差分脈碼調(diào)制算法編獨立的子帶信道分別采用差分脈碼調(diào)制算法編碼,再混合形成輸出

45、碼流。碼,再混合形成輸出碼流。高、低兩子帶編譯碼高、低兩子帶編譯碼器都采用器都采用8KHZ采樣頻率,但分別分配采樣頻率,但分別分配2位和位和6位位表示樣本值,表示樣本值,最終傳輸數(shù)率為最終傳輸數(shù)率為64KBPS。46G.722 SB-ADPCM標準標準 在某些應用場合中,也許希望從在某些應用場合中,也許希望從64 kb/s信道中讓出信道中讓出一部分信道用來傳送其它的數(shù)據(jù)。因此,一部分信道用來傳送其它的數(shù)據(jù)。因此,G.722定了三定了三種音頻信號傳送方式。北美洲的信息限制音頻信號速種音頻信號傳送方式。北美洲的信息限制音頻信號速率為率為56 kb/s,因此有因此有8 kb/s的數(shù)據(jù)率用來傳送附加數(shù)

46、據(jù)。的數(shù)據(jù)率用來傳送附加數(shù)據(jù)。方方 式式7kHz音頻信號編碼位速率音頻信號編碼位速率附加數(shù)據(jù)信道位速度附加數(shù)據(jù)信道位速度164 kb/s0 kb/s256 kb/s8 kb/s348 kb/s16 kb/s47高保真立體聲音頻壓縮標準 高質(zhì)量的聲音信號頻率范圍:高質(zhì)量的聲音信號頻率范圍: 50Hz20kHz 目前國際上比較成熟的高質(zhì)量聲音壓縮標準為目前國際上比較成熟的高質(zhì)量聲音壓縮標準為MPEG音頻。音頻。 MPEG標準由標準由ISO/IEC標準組織的標準組織的MPEG(活(活動圖像專家組)制定。動圖像專家組)制定。 MPEG小組負責比較和評估幾種低碼速率數(shù)小組負責比較和評估幾種低碼速率數(shù)字聲音編碼技術,以產(chǎn)生一套國際標準,用于活字聲音編碼技術,以產(chǎn)生一套國際標準,用于活動圖像、相關聲音信息及其結(jié)合,和用數(shù)字存儲動圖像、相關聲音信息及其結(jié)合,和用數(shù)字存儲媒體(媒體(DSM)存儲與重現(xiàn)。)存儲與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論