




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
MPEG聲音
一、
MPEG-1Audio
二、MPEG-2Audio三、MPEG-2ACC四、MPEG-4Audio
2002年10月28日MPEG聲音
MPEG-1Audio、MPEG-2Audio、MPEG-2ACC聲音數據壓縮編碼——感知聲音編碼(perceptualaudiocoding)
利用人的聽覺系統的感知特性來達到壓縮聲音數據的目的不同于與波形聲音壓縮編碼(如ADPCM)和參數編碼(如LPC):依據波形本身的相關性和模擬人的發音器官的特性)2002年10月28日MPEG聲音
對響度的感知
“聽閾—頻率”曲線2002年10月28日MPEG聲音
對音高的感知“音高—頻率”曲線2002年10月28日MPEG聲音
掩蔽效應一種頻率的聲音阻礙聽覺系統感受另一種頻率的聲音的現象
頻域掩蔽一個強純音會掩蔽在其附近同時發聲的弱純音,這種特性稱為頻域掩蔽,也稱同時掩蔽時域掩蔽在時間上相鄰的聲音之間的掩蔽現象。兩種時閾掩蔽:超前掩蔽和滯后掩蔽2002年10月28日MPEG聲音
心理聲學模型(psychoacousticmodel)聽覺閾值電平聽覺閾值的大小隨聲音頻率的改變而改變,各個人的聽覺閾值也不同。(大多數人2kHz~5kHz)一個人是否能聽到聲音取決于聲音的頻率,以及聲音的幅度是否高于這種頻率下的聽覺閾值。聽覺掩飾特性聽覺閾值電平是自適應的,即聽覺閾值電平會隨聽到的不同頻率的聲音而發生變化。
2002年10月28日MPEG聲音
MPEGAudio采用的兩種感知編碼:感知子帶編碼(perceptualsub-bandcoding)思想是首先把時域中的聲音數據變換到頻域,對頻域內的子帶分量分別進行量化和編碼,然后根據心理聲學模型確定樣本的精度,從而達到壓縮數據量的目的。不局限于只對話音進行編碼,也不局限于哪一種聲源。DolbyAC-3編碼2002年10月28日MPEG-1Audio感知子帶編碼壓縮算法框圖
2002年10月28日MPEG-1AudioDolbyAC-3壓縮編碼算法框圖2002年10月28日MPEG-1AudioMPEG聲音編碼器結構圖2002年10月28日MPEG-1AudioMPEG聲音解碼器結構圖2002年10月28日MPEG-1AudioISO/MPEGaudio層1和層2編碼器和解碼器的結構2002年10月28日MPEG-1AudioISO/MPEGaudio層3編碼器和解碼器的結構2002年10月28日MPEG-2AudioMPEG-1和-2的聲音數據規格參數名稱LinearPCMDolbyAC-3MPEG-2AudioMPEG-1Audio采用頻率48/96kHz32/44.1/48kHz16/22.05/24/32/44.1/48kHz32/44.1/48kHz樣本精度
(每個樣本的比特數)16/20/24壓縮(16bits)壓縮(16bits)16最大數據傳輸率6.144Mb/s448kb/s8~640kb/s32~448kb/s最大聲道數85.15.1/7.122002年10月28日MPEG-2ACCMPEG-2AAC(Advancedaudiocoding)編碼思想:主要使用聽覺系統的掩蔽特性來減少聲音的數據量,并且通過把量化噪聲分散到各個子帶中,用全局信號把噪聲掩蔽掉。與MPEG-1聲音格式不兼容
適用范圍:AAC支持的采用頻率可從8kHz到96kHzAAC編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。(AAC標準可支持48個主聲道、16個低頻音效加強通道LFE(lowfrequencyeffects)、16個配音聲道(overdubchannel)或者叫做多語言聲道(multilingualchannel)和16個數據流。)2002年10月28日MPEG-2ACCMPEG-2AAC(Advancedaudiocoding)壓縮率:MPEG-2AAC壓縮比為11:1(即每個聲道的數據率為(44.1×16)/11=64kb/s)。在5個聲道的總數據率為320kb/s的情況下,很難區分還原后的聲音與原始聲音之間的差別。與MPEG的層2相比,MPEG-2AAC的壓縮率可提高1倍,而且質量更高;與MPEG的層3相比,在質量相同的條件下數據率是它的70%。2002年10月28日MPEG-2ACC
MPEG-2AAC的配置開發MPEG-2AAC標準采用模塊化的方法:把整個AAC系統分解成一系列模塊,用標準化的AAC工具(advancedaudiocodingtools)對模塊進行定義(MPEGAudio標準是對整個系統進行標準化)AAC標準定義了三種配置:基本配置低復雜性配置可變采樣率配置2002年10月28日MPEG-2AAC編碼器框圖2002年10月28日
MPEG-2AAC解碼器框圖2002年10月28日MPEG-4Audio
MPEG-4Audio標準:集成從話音~高質量的多通道聲音;從自然聲音~合成聲音編碼方法:參數編碼(parametriccoding)碼激勵線性預測(codeexcitedlinearpredictive,CELP)編碼時間/頻率T/F(time/frequency)編碼結構化聲音SA(structuredaudio)編碼合成聲音:MIDI;TTS2002年10月28日MPEG-4Audio
自然聲音
(naturalaudio)MPEG-4聲音編碼器支持數據率2kb/s~64kb/s之間的自然聲音。三種類型聲音編碼器:
2002年10月28日MPEG-4Audio
1、參數編碼器使用聲音參數編碼技術。采樣頻率為8kHz的話音(speech),輸出數據率為2~4kb/s;采樣頻率為8kHz或16kHz的聲音(audio),輸出數據率為4~16kb/s。2002年10月28日MPEG-4Audio
2、CELP編碼器使用CELP(codeexcitedlinearpredictive)技術。采樣頻率為8kHz的窄帶話音或16kHz的寬帶話音,輸出數據率6~24kb/s2002年10月28日MPEG-4Audio
3、T/F編碼器使用時間-頻率(time-to-frequency,T/F)技術。這是一種使用矢量量化(vectorquantization,VQ)和線性預測的編碼器,采樣頻率為8kHz的聲音信號,輸出的數據率大于16kb/s。2002年10月28日MPEG-4Audio
MPEG-4Audio編碼方框圖2002年10月28日MPEG-4Audio
文-語轉換
TTS(text-to-speech)將文本形式的信息轉換成自然語
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 綿陽飛行職業學院《機械振動》2023-2024學年第二學期期末試卷
- 湖南三一工業職業技術學院《法理學》2023-2024學年第二學期期末試卷
- 阜陽科技職業學院《計算機專業英語》2023-2024學年第二學期期末試卷
- 閩江學院《數字信號處理B》2023-2024學年第二學期期末試卷
- 江西師范大學科學技術學院《馬克思主義基本原理》2023-2024學年第二學期期末試卷
- 重慶城市職業學院《基礎微生物學實驗》2023-2024學年第二學期期末試卷
- 綏化學院《地球物理計算方法》2023-2024學年第二學期期末試卷
- 浙江同濟科技職業學院《納米材料合成與表征》2023-2024學年第二學期期末試卷
- 黃河交通學院《小學英語課堂教學觀摩》2023-2024學年第二學期期末試卷
- 韓山師范學院《銀行綜合業務實驗實訓》2023-2024學年第二學期期末試卷
- 演唱會安保工作委托合同
- TSG ZF001-2006《安全閥安全技術監察規程》
- 嶺南版美術八年級上冊11課 傳統紋飾·民族風格(教學設計)
- 售后服務授權書(2024版)
- (高清版)DB42T 2179-2024 裝配式建筑評價標準
- 矯形鞋墊產品技術要求標準2024年版
- 2024年江西省南昌市中考生物·地理合卷試卷真題(含答案逐題解析)
- Photoshop平面設計與制作智慧樹知到期末考試答案章節答案2024年黑龍江農業工程職業學院(松北校區)
- (教學設計)第2章第1節新知探究課7化學鍵與物質構成2023-2024學年新教材高中化學必修第二冊(魯科版2019)
- DL∕T 796-2012 風力發電場安全規程
- 急診科骨髓腔穿刺及輸液技術
評論
0/150
提交評論