各種音視頻編解碼詳解 - 標注版_第1頁
各種音視頻編解碼詳解 - 標注版_第2頁
各種音視頻編解碼詳解 - 標注版_第3頁
各種音視頻編解碼詳解 - 標注版_第4頁
各種音視頻編解碼詳解 - 標注版_第5頁
已閱讀5頁,還剩48頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

各種音視頻編解碼詳解編解碼學習筆記(一):基本概念 媒體業務是網絡的主要業務之間。尤其移動互聯網業務的興起,在運營商和應用開發商中,媒體業務份量極重,其中媒體的編解碼服務涉及需求分析、應用開發、釋放license收費等等。最近因為項目的關系,需要理清媒體的codec,比較搞的是,在豆丁網上看運營商的規范標準,同一運營商同樣的業務在不同文檔中不同的要求,而且有些要求就我看來應當是歷史的延續,也就是現在已經很少采用了。所以豆丁上看不出所以然,從wiki上查。中文的wiki信息量有限,很短,而wiki的英文內容內多,刪減版也減肥得太過。我在網上還看到一個山寨的中文wiki,長得很像,紅色的,叫“天下維客”。wiki的中文還是很不錯的,但是閱讀后建議再閱讀英文。我對媒體codec做了一些整理和總結,資料來源于wiki,小部分來源于網絡博客的收集。網友資料我們將給出來源。如果資料已經轉手幾趟就沒辦法,雁過留聲,我們只能給出某個軌跡基本概念編解碼編解碼器(codec)指的是一個能夠對一個信號或者一個數據流進行變換的設備或者程序。這里指的變換既包括將信號或者數據流進行編碼(通常是為了傳輸、存儲或者加密)或者提取得到一個編碼流的操作,也包括為了觀察或者處理從這個編碼流中恢復適合觀察或操作的形式的操作。編解碼器經常用在視頻會議和流媒體等應用中。容器很多多媒體數據流需要同時包含音頻數據和視頻數據,這時通常會加入一些用于音頻和視頻數據同步的元數據,例如字幕。這三種數據流可能會被不同的程序,進程或者硬件處理,但是當它們傳輸或者存儲的時候,這三種數據通常是被封裝在一起的。通常這種封裝是通過視頻文件格式來實現的,例如常見的*.mpg,*.avi,*.mov,*.mp4,*.rm,*.oggor*.tta.這些格式中有些只能使用某些編解碼器,而更多可以以容器的方式使用各種編解碼器。FourCC全稱Four-CharacterCodes,是由4個字符(4bytes)組成,是一種獨立標示視頻數據流格式的四字節,在wav、avi檔案之中會有一段FourCC來描述這個AVI檔案,是利用何種codec來編碼的。因此wav、avi大量存在等于“IDP3”的FourCC。視頻是現在電腦中多媒體系統中的重要一環。為了適應儲存視頻的需要,人們設定了不同的視頻文件格式來把視頻和音頻放在一個文件中,以方便同時回放。視頻檔實際上都是一個容器里面包裹著不同的軌道,使用的容器的格式關系到視頻檔的可擴展性。參數介紹采樣率采樣率(也稱為采樣速度或者采樣頻率)定義了每秒從連續信號中提取并組成離散信號的采樣個數,它用赫茲(Hz)來表示。采樣頻率的倒數叫作采樣周期或采樣時間,它是采樣之間的時間間隔。注意不要將采樣率與比特率(bitrate,亦稱“位速率”)相混淆。采樣定理表明采樣頻率必須大于被采樣信號帶寬的兩倍,另外一種等同的說法是奈奎斯特頻率必須大于被采樣信號的帶寬。如果信號的帶寬是100Hz,那么為了避免混疊現象采樣頻率必須大于200Hz。換句話說就是采樣頻率必須至少是信號中最大頻率分量頻率的兩倍,否則就不能從信號采樣中恢復原始信號。對于語音采樣:8,000Hz-電話所用采樣率,對于人的說話已經足夠11,025Hz22,050Hz-無線電廣播所用采樣率32,000Hz-miniDV數碼視頻camcorder、DAT(LPmode)所用采樣率44,100Hz-音頻CD,也常用于MPEG-1音頻(VCD,SVCD,MP3)所用采樣率47,250Hz-NipponColumbia(Denon)開發的世界上第一個商用PCM錄音機所用采樣率48,000Hz-miniDV、數字電視、DVD、DAT、電影和專業音頻所用的數字聲音所用采樣率50,000Hz-二十世紀七十年代后期出現的3M和Soundstream開發的第一款商用數字錄音機所用采樣率50,400Hz-三菱X-80數字錄音機所用所用采樣率96,000或者192,000Hz-DVD-Audio、一些LPCMDVD音軌、Blu-rayDisc(藍光盤)音軌、和HD-DVD(高清晰度DVD)音軌所用所用采樣率2.8224MHz-SACD、索尼和飛利浦聯合開發的稱為DirectStreamDigital的1位sigma-deltamodulation過程所用采樣率。在模擬視頻中,采樣率定義為幀頻和場頻,而不是概念上的像素時鐘。圖像采樣頻率是傳感器積分周期的循環速度。由于積分周期遠遠小于重復所需時間,采樣頻率可能與采樣時間的倒數不同。50Hz-PAL視頻60/1.001Hz-NTSC視頻當模擬視頻轉換為數字視頻的時候,出現另外一種不同的采樣過程,這次是使用像素頻率。一些常見的像素采樣率有:13.5MHz-CCIR601、D1video分辨率分辨率,泛指量測或顯示系統對細節的分辨能力。此概念可以用時間、空間等領域的量測。日常用語中之分辨率多用于圖像的清晰度。分辨率越高代表圖像品質越好,越能表現出更多的細節。但相對的,因為紀錄的信息越多,文件也就會越大。目前個人電腦里的圖像,可以使用圖像處理軟件,調整圖像的大小、編修照片等。例如photoshop,或是photoimpact等軟件。圖像分辨率

:用以描述圖像細節分辨能力,同樣適用于數字圖像、膠卷圖像、及其他類型圖像。常用'線每毫米'、'線每英吋'等來衡量。通常,“分辨率”被表示成每一個方向上的像素數量,比如640x480等。而在某些情況下,它也可以同時表示成“每英吋像素”(pixelsperinch,ppi)以及圖形的長度和寬度。比如72ppi,和8x6英吋。視頻分辨率

: 各種電視規格分辨率比較視頻的畫面大小稱為“分辨率”。數位視頻以像素為度量單位,而類比視頻以水平掃瞄線數量為度量單位。標清電視頻號分辨率為720/704/640x480i60(NTSC)或768/720x576i50(PAL/SECAM)。新的高清電視(HDTV)分辨率可達1920x1080p60,即每條水平掃瞄線有1920個像素,每個畫面有1080條掃瞄線,以每秒鐘60張畫面的速度播放。畫面更新率fpsFramerate中文常譯為“畫面更新率”或“幀率”,是指視頻格式每秒鐘播放的靜態畫面數量。典型的畫面更新率由早期的每秒6或8張(framepersecond,簡稱fps),至現今的每秒120張不等。PAL(歐洲,亞洲,澳洲等地的電視廣播格式)與SECAM(法國,俄國,部分非洲等地的電視廣播格式)規定其更新率為25fps,而NTSC(美國,加拿大,日本等地的電視廣播格式)則規定其更新率為29.97fps。電影膠卷則是以稍慢的24fps在拍攝,這使得各國電視廣播在播映電影時需要一些復雜的轉換手續(參考Telecine轉換)。要達成最基本的視覺暫留效果大約需要10fps的速度。壓縮方法有損壓縮和無損壓縮在視頻壓縮中有損(Lossy)和無損(Lossless)的概念與靜態圖像中基本類似。無損壓縮也即壓縮前和解壓縮后的數據完全一致。多數的無損壓縮都采用RLE行程編碼算法。有損壓縮意味著解壓縮后的數據與壓縮前的數據不一致。在壓縮的過程中要丟失一些人眼和人耳所不敏感的圖像或音頻信息,而且丟失的信息不可恢復。幾乎所有高壓縮的算法都采用有損壓縮,這樣才能達到低數據率的目標。丟失的數據率與壓縮比有關,壓縮比越小,丟失的數據越多,解壓縮后的效果一般越差。此外,某些有損壓縮算法采用多次重復壓縮的方式,這樣還會引起額外的數據丟失。無損格式,例如WAV,PCM,TTA,FLAC,AU,APE,TAK,WavPack(WV)有損格式,例如MP3,WindowsMediaAudio(WMA),OggVorbis(OGG),AAC幀內壓縮和幀間壓縮幀內(Intraframe)壓縮也稱為空間壓縮(Spatialcompression)。當壓縮一幀圖像時,僅考慮本幀的數據而不考慮相鄰幀之間的冗余信息,這實際上與靜態圖像壓縮類似。幀內一般采用有損壓縮算法,由于幀內壓縮時各個幀之間沒有相互關系,所以壓縮后的視頻數據仍可以以幀為單位進行編輯。幀內壓縮一般達不到很高的壓縮。采用幀間(Interframe)壓縮是基于許多視頻或動畫的連續前后兩幀具有很大的相關性,或者說前后兩幀信息變化很小的特點。也即連續的視頻其相鄰幀之間具有冗余信息,根據這一特性,壓縮相鄰幀之間的冗余量就可以進一步提高壓縮量,減小壓縮比。幀間壓縮也稱為時間壓縮(Temporalcompression),它通過比較時間軸上不同幀之間的數據進行壓縮。幀間壓縮一般是無損的。幀差值(Framedifferencing)算法是一種典型的時間壓縮法,它通過比較本幀與相鄰幀之間的差異,僅記錄本幀與其相鄰幀的差值,這樣可以大大減少數據量。對稱編碼和不對稱編碼對稱性(symmetric)是壓縮編碼的一個關鍵特征。對稱意味著壓縮和解壓縮占用相同的計算處理能力和時間,對稱算法適合于實時壓縮和傳送視頻,如視頻會議應用就以采用對稱的壓縮編碼算法為好。而在電子出版和其它多媒體應用中,一般是把視頻預先壓縮處理好,爾后再播放,因此可以采用不對稱(asymmetric)編碼。不對稱或非對稱意味著壓縮時需要花費大量的處理能力和時間,而解壓縮時則能較好地實時回放,也即以不同的速度進行壓縮和解壓縮。一般地說,壓縮一段視頻的時間比回放(解壓縮)該視頻的時間要多得多。例如,壓縮一段三分鐘的視頻片斷可能需要10多分鐘的時間,而該片斷實時回放時間只有三分鐘。除wiki外的資料來源:/csyy/Using/200411/3142.html資料壓縮港臺將information翻譯為資料資料壓縮是透過去除資料中的冗余資訊而達成。就視訊資料而言,資料中的冗余資訊可以分成四類:時間上的冗余資訊(temporalredundancy)

在視訊資料中,相鄰的幀(frame)與幀之間通常有很強的關連性,這樣的關連性即為時間上的冗余資訊。這即是上一節中的幀間壓縮。空間上的冗余資訊(spatialredundancy)

在同一張幀之中,相鄰的像素之間通常有很強的關連性,這樣的關連性即為空間上的冗余資訊。這即是上一節中的幀內壓縮。統計上的冗余資訊(statisticalredundancy)

統計上的冗余資訊指的是欲編碼的符號(symbol)的機率分布是不均勻(non-uniform)的。感知上的冗余資訊(perceptualredundancy)

感知上的冗余資訊是指在人在觀看視訊時,人眼無法察覺的資訊。視訊壓縮 視訊壓縮(英文:Videocompression)是指運用資料壓縮技術將數位視訊資料中的冗余資訊去除,降低表示原始視訊所需的資料量,以便視訊資料的傳輸與儲存。實際上,原始視訊資料的資料量往往過大,例如未經壓縮的電視品質視訊資料的位元率高達216Mbps,絕大多數的應用無法處理如此龐大的資料量,因此視訊壓縮是必要的。目前最新的視訊編碼標準為ITU-T視訊編碼專家組(VCEG)和ISO/IEC動態圖像專家組(MPEG)聯合組成的聯合視訊組(JVT,JointVideoTeam)所提出的H.264/AVC。編解碼學習筆記(二):codec類型一個典型的視訊編碼器:在進行當前信號編碼時,編碼器首先會產生對當前信號做預測的信號,稱作預測信號(predictedsignal),預測的方式可以是時間上的預測(interprediction),亦即使用先前幀的信號做預測,或是空間上的預測(intraprediction),亦即使用同一張幀之中相鄰像素的信號做預測。得到預測信號后,編碼器會將當前信號與預測信號相減得到殘余信號(residualsignal),并只對殘余信號進行編碼,如此一來,可以去除一部份時間上或是空間上的冗余資訊。接著,編碼器并不會直接對殘余信號進行編碼,而是先將殘余信號經過變換(通常為離散余弦變換)然后量化以進一步去除空間上和感知上的冗余資訊。量化后得到的量化系數會再透過熵編碼,去除統計上的冗余資訊。

視訊編碼標準發展年份標準制定組織解除版權保護

(DRM-free)主要應用1984\o"H.120(尚未撰寫)"H.120\o"ITU-T"ITU-T是

1990\o"H.261"H.261\o"ITU-T"ITU-T是\o"視訊會議"視訊會議、\o"視訊通話(尚未撰寫)"視訊通話1993\o"MPEG-1第二部份(尚未撰寫)"MPEG-1第二部份\o"ISO"ISO

/\o"IEC"IEC是影音光碟(\o"VCD"VCD

)1995\o"H.262/MPEG-2第二部份(尚未撰寫)"H.262/MPEG-2第二部份\o"ISO"ISO

\o"IEC"IEC、\o"ITU-T"ITU-T否\o"DVD影碟(尚未撰寫)"DVD影碟(\o"DVD-Video"DVD-Video

)、\o"藍光"藍光(\o"Blu-Ray(尚未撰寫)"Blu-Ray

)影碟、數位視訊廣播(\o"DVB"DVB

)、\o"SVCD"SVCD1996\o"H.263"H.263

[6]\o"ITU-T"ITU-T

\o"視訊會議"視訊會議、\o"視訊通話(尚未撰寫)"視訊通話、\o"3G"3G

手機視訊(\o"3GP"3GP

)1999\o"MPEG-4第二部份(尚未撰寫)"MPEG-4第二部份\o"ISO"ISO

/\o"IEC"IEC否

2003\o"H.264/MPEG-4AVC"H.264/MPEG-4AVC

[1]\o"ISO"ISO

\o"IEC"IEC、\o"ITU-T"ITU-T否\o"藍光"藍光(\o"Blu-Ray(尚未撰寫)"Blu-Ray

)影碟、數位視訊廣播(\o"DVB"DVB)、\o"IPod"iPod

視訊、\o"高畫質DVD(尚未撰寫)"高畫質DVD(\o"HDDVD"HDDVD

)常見的編解碼見下表,在以后會分類論述:

視頻codec\o"國際標準化組織"ISO/\o"國際電工委員會"IEC\o"MotionJPEG"MJPEG

·

\o"JPEG2000"MotionJPEG2000

·

\o"MPEG-1"MPEG-1

·

\o"MPEG-2"MPEG-2

(\o"H.262/MPEG-2Part2(尚未撰寫)"Part2

\o"MPEG-4"MPEG-4

(\o"MPEG-4Part2(尚未撰寫)"Part2/ASP

·

\o"H.264/MPEG-4AVC"Part10/AVC

\o"High-performanceVideoCoding(尚未撰寫)"HVC\o"國際電信聯盟遠程通信標準化組"ITU-T\o"H.120(尚未撰寫)"H.120

·

\o"H.261"H.261

·

\o"H.262/MPEG-2Part2(尚未撰寫)"H.262

·

\o"H.263"H.263

·

\o"H.264/MPEG-4AVC"H.264

·

\o"H.265"H.265其它\o"AMVvideoformat"AMV

·

\o"AudioVideoStandard"AVS

·

\o"BinkVideo"Bink

·

\o"CineForm"CineForm

·

\o"Cinepak"Cinepak

·

\o"Dirac(codec)"Dirac

·

\o"DV"DV

·

\o"Indeo"Indeo

·

\o"MicrosoftVideo1"MicrosoftVideo1·

\o"OMSVideo"OMSVideo

·

\o"Pixlet"Pixlet

·

\o"RealVideo"RealVideo

·

\o"RTVideo"RTVideo

·

\o"SheerVideo"SheerVideo

·

\o"Smackervideo"Smacker

·

\o"Sorensoncodec"SorensonVideo&SorensonSpark

·

\o"Theora"Theora

·

\o"VC-1"VC-1

·

\o"VP3"VP3

·

\o"VP6"VP6

·

\o"VP7"VP7

·

\o"VP8"VP8

·

\o"WindowsMediaVideo"WMV音頻codec\o"國際標準化組織"ISO/\o"國際電工委員會"IEC\o"MPEG"MPEG\o"MP3"MPEG-1LayerIII(MP3)

·

\o"MPEG-1AudioLayerII"MPEG-1LayerII

·

\o"MPEG-1AudioLayerI(尚未撰寫)"MPEG-1LayerI

·

\o"AdvancedAudioCoding"AAC

·

\o"High-EfficiencyAdvancedAudioCoding(尚未撰寫)"HE-AAC

·\o"AudioLosslessCoding(尚未撰寫)"MPEG-4ALS

·

\o"MPEG-4SLS(尚未撰寫)"MPEG-4SLS

·

\o"DirectStreamTransfer"MPEG-4DST\o"國際電信聯盟遠程通信標準化組"ITU-T\o"G.711"G.711

·

\o"G.718(尚未撰寫)"G.718

·

\o"G.719(尚未撰寫)"G.719

·

\o"G.722"G.722

·

\o"G.722.1(尚未撰寫)"G.722.1

·

\o"G.722.2(尚未撰寫)"G.722.2

·

\o"G.723"G.723

·

\o"G.723.1(尚未撰寫)"G.723.1

·

\o"G.726"G.726

·\o"G.728(尚未撰寫)"G.728

·

\o"G.729"G.729

·

\o"G.729.1(尚未撰寫)"G.729.1其它\o"DolbyDigital"AC-3

·

\o"AdaptiveMulti-Rateaudiocodec"AMR

·

\o"AdaptiveMulti-RateWideband"AMR-WB

·

\o"ExtendedAdaptiveMulti-Rate-Wideband"AMR-WB+

·

\o"AppleLossless"AppleLossless

·

\o"AdaptiveTransformAcousticCoding"ATRAC

·

\o"DynamicResolutionAdaptation"DRA

·

\o"DTS(soundsystem)"DTS

·\o"FreeLosslessAudioCodec"FLAC

·

\o"HalfRate"GSM-HR

·

\o"FullRate"GSM-FR

·

\o"EnhancedFullRate"GSM-EFR

·

\o"InternetLowBitRateCodec"iLBC

·

\o"Monkey'sAudio"Monkey'sAudio

·

\o"TTA(codec)"TTA

(TrueAudio)·

\o"MT9"MT9

·

\o"Μ-lawalgorithm"μ-law

·

\o"Musepack"Musepack

·

\o"NellymoserAsaoCodec"Nellymoser

·

\o"OptimFROG"OptimFROG

·

\o"OriginalSoundQuality"OSQ

·

\o"RealAudio"RealAudio·

\o"RTAudio"RTAudio

·

\o"Digidesign"SD2

·

\o"Shorten"SHN

·

\o"SILK"SILK

·

\o"SirenCodec"Siren

·

\o"Speex"Speex

·

\o"TwinVQ"TwinVQ

·

\o"Vorbis"Vorbis

·

\o"WavPack"WavPack

·\o"WindowsMediaAudio"WMA圖像壓縮\o"國際標準化組織"ISO/\o"國際電工委員會"IEC/\o"國際電信聯盟遠程通信標準化組"ITU-T\o"JPEG"JPEG

·

\o"JPEG2000"JPEG2000

·

\o"JPEGXR(尚未撰寫)"JPEGXR

·

\o"LosslessJPEG(尚未撰寫)"losslessJPEG

·

\o"JBIG"JBIG

·

\o"JBIG2(尚未撰寫)"JBIG2

·

\o"PortableNetworkGraphics"PNG

·

\o"WirelessApplicationProtocolBitmapFormat(尚未撰寫)"WBMPOthers\o"APNG"APNG

·

\o"BMP"BMP

·

\o"DjVu"DjVu

·

\o"OpenEXR(尚未撰寫)"EXR

·

\o"GraphicsInterchangeFormat"GIF

·

\o"ICER(尚未撰寫)"ICER

·

\o"ILBM(尚未撰寫)"ILBM

·

\o"Multiple-imageNetworkGraphics"MNG

·

\o"PCX"PCX

·

\o"ProgressiveGraphicsFile(尚未撰寫)"PGF

·

\o"TruevisionTGA(尚未撰寫)"TGA

·\o"TaggedImageFileFormat"TIFF媒體容器通用HYPERLINK"/byxdaz/ar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論