




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數字電視原理.7/19/20231第4章信源編碼原理4.1數字音頻編碼的基本原理4.2數字視頻編碼概述4.3熵編碼4.4預測編碼4.5變換編碼.7/19/202324.1數字音頻編碼的基本原理4.1.1數字音頻壓縮的必要性和可能性4.1.2人耳的聽覺感知特性4.1.3音頻感知編碼原理.7/19/202334.1.1數字音頻壓縮的必要性和可能性音頻信號數字化后可以避免模擬信號容易受噪聲和干擾的影響,可以擴大音頻的動態范圍,可以利用計算機進行數據處理,可以不失真地遠距離傳輸,可以與圖像、視頻等其他媒體信息進行多路復用,以實現多媒體化與網絡化,所以,音頻信號的數字化是一種必不可少的技術手段。.7/19/202344.1.1數字音頻壓縮的必要性和可能性時間域冗余樣值幅度分布的非均勻性樣值間的相關性信號周期之間的相關性長時自相關靜音.7/19/202354.1.1數字音頻壓縮的必要性和可能性頻率域冗余長時功率譜密度的非均勻性話音特有的短時功率譜密度.7/19/202364.1.1數字音頻壓縮的必要性和可能性聽覺冗余
因為人耳對信號幅度、頻率的分辨能力是有限的,所以凡是人耳感覺不到的成分,即對人耳辨別聲音的強度、音調、方位沒有貢獻的成分,稱為與聽覺無關的“不相關”部分,都可視為是冗余的,可以將它們壓縮掉。.7/19/202374.1.1數字音頻壓縮的必要性和可能性數字音頻壓縮編碼的目的,是在保證重構聲音質量一定的前提下,以盡量少的比特數來表征音頻信息,或者是在給定的數碼率下,使得解碼恢復出的重構聲音的質量盡可能高。.7/19/202384.1數字音頻編碼的基本原理4.1.1數字音頻壓縮的必要性和可能性4.1.2人耳的聽覺感知特性4.1.3音頻感知編碼原理.7/19/202394.1.2人耳的聽覺感知特性人耳對不同強度、不同頻率聲音的聽覺范圍稱為可聽域。在人耳的可聽域范圍內,聲音聽覺心理的主觀感受主要有響度、音調、音色等特征和掩蔽效應、高頻定位等特性。響度、音調、音色分別與聲音的振幅、頻率、頻譜分布特性(包絡形狀)相對應,稱為聲音的“三要素”。人耳的掩蔽效應是心理聲學的基礎,是感知音頻編碼的理論依據。.7/19/2023104.1.2人耳的聽覺感知特性響度聲壓由聲波引起的交變壓強稱為聲壓,一般用P表示,單位是帕(Pa)。聲壓的大小反映了聲音振動的強弱,同時也決定了聲波的幅度大小。在一定時間內,瞬時聲壓對時間取均方根值后稱為有效聲壓。.7/19/2023114.1.2人耳的聽覺感知特性聲壓級
用聲壓的相對大小(稱聲壓級或聲強)來表示聲壓的強弱。聲壓級用符號SPL表示,單位是分貝(dB):
式中,P為聲壓有效值;Pref為參考聲壓,一般取Pa,這個數值是人耳所能聽到的1kHz聲音的最低聲壓,低于這一聲壓,人耳就無法覺察出聲波的存在了。.7/19/2023124.1.2人耳的聽覺感知特性響度
人耳對聲音強弱的主觀感覺稱為響度。響度與聲波的振幅并不完全一致。響度不僅取決于振幅的大小,還取決于頻率的高低。響度用符號N表示,單位是宋(sone)。國際上規定,頻率為1kHz的純音在聲壓級為40dB時的響度為1宋(sone)。.7/19/2023134.1.2人耳的聽覺感知特性響度級人耳對聲音強弱的主觀感覺還可以用響度級來表示。響度級的單位為方(phon)。規定1kHz純音聲壓級的分貝數定義為響度級的數值。響度/sone1248163264128256聲壓級/dB405060708090100110120響度級/phon405060708090100110120.7/19/2023144.1.2人耳的聽覺感知特性等響度曲線.7/19/2023154.1.2人耳的聽覺感知特性聽閾與痛閾
當聲音減弱到人耳剛剛可以聽見時,此時的聲音強度稱為最小可聽閾值,簡稱為“聽閾”。一般以1kHz純音為準進行測量,人耳剛能聽到的聲壓級為0dB(通常大于0.3dB即有感受)。當聲音增強到使人耳感到疼痛時,這個聽覺閾值稱為“痛閾”。仍以1kHz純音為準來進行測量,使人耳感到疼痛時的聲壓級約達到140dB左右。.7/19/2023164.1.2人耳的聽覺感知特性音調音調也稱音高,表示人耳對聲音調子高低的主觀感受。音調單位是“美(Mel)”。頻率為1kHz、聲壓級為40dB的純音所產生的音調就定義為1Mel。音調大體上與頻率的對數成正比。.7/19/2023174.1.2人耳的聽覺感知特性音色按聲音的頻率成分組成,可分為:純音:振幅和周期均為常數的聲音復音:不同頻率和不同振幅的聲波組合基音:復音中的最低頻率稱為復音的基音,是決定聲音音調的基本因素,它通常是常數泛音:復音中的其他頻率稱為泛音(諧音)音色是人耳對各種頻率、各種強度的聲波的綜合反應。主要由聲音的頻譜結構決定的。.7/19/2023184.1.2人耳的聽覺感知特性人耳的聽覺掩蔽效應一個較弱的聲音(被掩蔽音)的聽覺感受被另一個較強的聲音(掩蔽音)影響的現象稱為人耳的聽覺“掩蔽效應”。被掩蔽音單獨存在時的聽閾分貝值,或者說在安靜環境中能被人耳聽到的純音的最小值稱為絕對聽閾。.7/19/2023194.1.2人耳的聽覺感知特性人耳的聽覺掩蔽效應在掩蔽情況下,提高被掩蔽弱音的強度,使人耳能夠聽見時的聽閾稱為掩蔽聽閾(或稱掩蔽門限),被掩蔽弱音必須提高的分貝值稱為掩蔽量(或稱閾移)。
.7/19/2023204.1.2人耳的聽覺感知特性掩蔽效應純音間的掩蔽對處于中等強度時的純音最有效的掩蔽是出現在它的頻率附近。低頻的純音可以有效地掩蔽高頻的純音,而反過來則作用很小。.7/19/2023214.1.2人耳的聽覺感知特性掩蔽效應噪音對純音的掩蔽掩蔽音為寬帶噪音,被掩蔽音為純音,則它產生的掩蔽門限在低頻段一般高于噪音功率譜密度17dB,且較平坦;當頻率超過500Hz時,大約每十倍頻程增大10dB。若掩蔽音為窄帶噪音,被掩蔽音為純音,其中位于被掩蔽音附近的由純音分量組成的窄帶噪音即臨界頻帶的掩蔽作用最明顯。.7/19/2023224.1.2人耳的聽覺感知特性掩蔽類型頻率域掩蔽所謂頻率域掩蔽是指掩蔽音與被掩蔽音同時作用時發生掩蔽效應,又稱同時掩蔽。這時,掩蔽音在掩蔽效應發生期間一直起作用,是一種較強的掩蔽效應。
.7/19/2023234.1.2人耳的聽覺感知特性掩蔽類型頻率域掩蔽.7/19/2023244.1.2人耳的聽覺感知特性掩蔽類型時間域掩蔽在一個強音信號之前或之后的弱音信號,也會被掩蔽掉,這種掩蔽效應稱為時間域掩蔽,也稱異時掩蔽。
時間域掩蔽又分為前掩蔽和后掩蔽。
.7/19/2023254.1數字音頻編碼的基本原理4.1.1數字音頻壓縮的必要性和可能性4.1.2人耳的聽覺感知特性4.1.3音頻感知編碼原理.7/19/2023264.1.3音頻感知編碼原理如何精確地計算出掩蔽閾值(即獲得“心理聲學模型”)如何從音頻信號中僅僅提取可聞信息而加以處理,將人耳不能感知的聲音成分去掉,只保留人耳能感知的聲音成分,在量化時也不一味追求最小的量化噪聲,只要量化噪聲不被人耳感知即可。.7/19/2023274.1.3音頻感知編碼原理自適應變換編碼在變換編碼中,利用正交變換,把時間域音頻信號變換到另一個域(如頻率域),由于去相關的結果,變換域系數的能量將集中在一個較小的范圍,所以對變換系數進行量化編碼,就可以達到壓縮數碼率的目的。而在接收端,用逆變換便可獲得重構的音頻信號。使變換域系數能夠進行自適應比特分配的變換編碼,稱為自適應變換編碼(ATC)。.7/19/2023284.1.3音頻感知編碼原理變換長度(即窗長度)的選擇一方面,變換長度越長,編碼壓縮比越高。但對于單一字組中幅度急劇變化的信號(如鼓聲),在上升部分若采用長的分組,會使得時間域分辨率下降,導致嚴重的所謂“前反射”。消除“前反射”的辦法是用短的分組,提高時間域的分辨率,使之限制在一個較短的時間內。自適應譜感知熵編碼(AdaptiveSpectralPerceptualEntropyCoding,ASPEC)采用動態長度的重疊窗函數。.7/19/2023294.1.3音頻感知編碼原理字組失真字組編碼的原則是,無論字組邊界相鄰的采樣在時間軸上是否連續,都應按屬于不同字組而進行不同精度的量化,因此人們會容易感覺到字組邊界附近量化噪聲的不連續性,這就是加窗變換造成的邊界效應。為了消除這種邊界效應,往往采用具有部分重疊的變換窗,而這樣又會帶來時間域混疊,降低了編碼性能。.7/19/2023304.1.3音頻感知編碼原理子帶編碼子帶編碼(Sub-BandCoding,SBC)不對信號直接進行變換,而是首先用一組帶通濾波器將輸入信號分成若干個在不同頻段上的子帶信號,然后將這些子帶信號經過頻率搬移轉變成基帶信號,再對它們在奈奎斯特速率上分別重新采樣。采樣后的信號經過量化編碼,并合并成一個總的碼流傳送給接收端。在接收端,首先把碼流分成與原來的各子帶信號相對應的子帶碼流,然后解碼、將頻譜搬移至原來的位置,最后經帶通濾波、相加,得到重建的信號。.7/19/2023314.1.3音頻感知編碼原理子帶編碼的優點:可根據每個子帶信號在感知上的重要性,即利用人對聲音信號的感知模型(心理聲學模型),對每個子帶內的采樣值分配不同的比特數。由于分割為子帶后,減少了各子帶內信號能量分布不均勻的程度,減少了動態范圍,從而可以按照每個子帶內信號能量來分配量化比特數,對每個子帶信號分別進行自適應控制。通過頻帶分割,各個子帶的采樣頻率可以成倍下降。.7/19/2023324.1.3音頻感知編碼原理
1976年子帶編碼技術首次被美國貝爾實驗室的R.E.Crochiere等人應用于話音編碼。掩蔽型自適應通用子帶綜合編碼和復用(MaskingpatternadaptedUniversalSubbandIntegratedCodingAndMultiplexing,MUSICAM)編碼方案,已被MPEG采納作為寬帶、高質量的音頻壓縮編碼標準。.7/19/202333第4章信源編碼原理4.1數字音頻編碼的基本原理4.2數字視頻編碼概述4.3熵編碼4.4預測編碼4.5變換編碼.7/19/2023344.2數字視頻編碼概述4.2.1數字視頻壓縮的必要性和可能性4.2.2數字視頻編碼技術的進展4.2.3數據壓縮分類.7/19/2023354.2.1數字視頻壓縮的必要性和可能性數據壓縮的理論基礎是信息論。從信息論的角度來看,壓縮就是去掉數據中的冗余,即保留不確定的信息,去掉確定的信息(可推知的),也就是用一種更接近信息本質的描述來代替原有冗余的描述。.7/19/2023364.2.1數字視頻壓縮的必要性和可能性空間冗余
空間冗余也稱為空域冗余,是一種與像素間相關性直接聯系的數據冗余。如果先去除冗余數據再進行編碼,則使表示每個像素的平均比特數下降,這就是通常所說的圖像的幀內編碼,即以減少空間冗余進行數據壓縮。
.7/19/2023374.2.1數字視頻壓縮的必要性和可能性時間冗余時間冗余也稱為時域冗余,它是針對視頻序列圖像而言的。視頻序列每秒有25~30幀圖像,相鄰幀之間的時間間隔很小(例如,幀頻為25Hz的電視信號,其幀間時間間隔只有0.04s);同時實際生活中的運動物體具有運動一致性,使得視頻序列圖像之間有很強的相關性。.7/19/2023384.2.1數字視頻壓縮的必要性和可能性時間冗余
對于視頻壓縮而言,通常采用運動估值和運動補償預測技術來消除時間冗余,也稱為幀間編碼。
.7/19/2023394.2.1數字視頻壓縮的必要性和可能性統計冗余統計冗余也稱編碼表示冗余或符號冗余。采用可變長編碼技術,對出現概率大的符號用短碼字表示,對出現概率小的符號用長碼字表示,則可去除符號冗余,從而節約碼字,這就是熵編碼的思想。.7/19/2023404.2.1數字視頻壓縮的必要性和可能性結構冗余在有些圖像的部分區域內有著很相似的紋理結構,或是圖像的各個部分之間存在著某種關系,例如自相似性等,這些都是結構冗余的表現。分形圖像編碼的基本思想就是利用了結構冗余。.7/19/2023414.2.1數字視頻壓縮的必要性和可能性知識冗余在某些特定的應用場合,編碼對象中包含的信息與某些先驗的基本知識有關。可以利用這些先驗知識為編碼對象建立模型。通過提取模型參數,對參數進行編碼而不是對圖像像素值直接進行編碼,可以達到非常高的壓縮比。這是模型基編碼(或稱知識基編碼、語義基編碼)的基本思想。.7/19/2023424.2.1數字視頻壓縮的必要性和可能性人眼的視覺冗余視覺冗余度是相對于人眼的視覺特性而言的。壓縮視覺冗余的核心思想是去掉那些相對人眼而言是看不到的或可有可無的圖像數據。對視覺冗余的壓縮通常反映在各種具體的壓縮編碼過程中。.7/19/2023434.2數字視頻編碼概述4.2.1數字視頻壓縮的必要性和可能性4.2.2數字視頻編碼技術的進展4.2.3數據壓縮分類.7/19/2023444.2.2數字視頻編碼技術的進展1948年電視信號數字化的提出,人們開始了對圖像壓縮編碼的研究工作1952年哈夫曼給出最優變長碼的構造方法.7/19/2023454.2.2數字視頻編碼技術的進展預測編碼1952貝爾實驗室的奧利弗等人開始研究線性預測編碼理論1958年格雷哈姆用計算機模擬法研究圖像的DPCM方法1966年奧尼爾通過理論分析和計算模擬比較了PCM和DPCM對電視信號進行編碼傳輸的性能20世紀70年代開始進行了幀間預測編碼的研究20世紀80年代初開始對作運動補償預測所用的運動估值進行研究.7/19/2023464.2.2數字視頻編碼技術的進展變換編碼首先討論了包括K-L(Karhunen-Loeve)變換、傅立葉變換等正交變換1968年安德魯斯等人采用二維離散傅立葉變換(2D-DFT)提出了變換編碼此后相繼出現了沃爾什-哈達瑪(Walsh-Hadamard)變換、斜(Slant)變換、K-L變換、離散余弦變換(DCT)等.7/19/2023474.2.2數字視頻編碼技術的進展子帶編碼1976年美國貝爾系統的克勞切等人提出了話音的子帶編碼1985年奧尼爾將子帶編碼引入到圖像編碼.7/19/2023484.2.2數字視頻編碼技術的進展算術編碼1960年,P.Elias提出了算術編碼的概念1976年,R.Pasco和J.Rissanen分別用定長的寄存器實現了有限精度的算術編碼1979年Rissanen和G.G.Langdon一起將算術編碼系統化,并于1981年實現了二進制編碼1987年Witten等人發表了一個實用的算術編碼程序,即CACM87(后被ITU-T的H.263視頻壓縮標準采用)同期,IBM公司發表了著名的Q-編碼器(后被JPEG建議的擴展系統和JBIG二值圖像壓縮標準采用).7/19/2023494.2.2數字視頻編碼技術的進展基于模型編碼1983年瑞典的Forchheimer
和Fahlander提出了基于模型編碼(Model-BasedCoding)的思想.7/19/2023504.2.2數字視頻編碼技術的進展小波變換編碼1986年,Meyer在理論上證明了一維小波函數的存在1987年Mallat提出了多尺度分析的思想及多分辨率分析的概念,提出了相應的快速小波算法——Mallat算法,并把它有效地應用于圖像分解和重構1989年,小波變換開始用于多分辨率圖像描述.7/19/2023514.2.2數字視頻編碼技術的進展分層可分級編碼20世紀90年代中后期,Internet迅猛發展,移動通信也迅速在全球普及,因此人們開始有了在網絡上傳輸視頻和圖像的愿望。在網絡上傳輸視頻和圖像等多媒體信息除了要解決誤碼問題之外,最大的挑戰在于用戶可以獲得的帶寬在不停地變化。為了適應網絡帶寬的變化,提出了分層(layered)、可分級(scalable)編碼的思想。.7/19/2023524.2數字視頻編碼概述4.2.1數字視頻壓縮的必要性和可能性4.2.2數字視頻編碼技術的進展4.2.3數據壓縮分類.7/19/2023534.2.3數據壓縮分類無失真編碼無失真編碼又稱無損編碼、信息保持編碼、熵編碼。熵編碼是純粹基于信號統計特性的一種編碼方法,它利用信源概率分布的不均勻性,通過變長編碼來減少信源數據冗余,解碼后還原的數據與壓縮編碼前的原始數據完全相同而不引入任何失真。無失真編碼的壓縮比較低,可達到的最高壓縮比受到信源熵的理論限制,一般為2∶1到5∶1。最常用的無失真編碼方法有哈夫曼(Huffman)編碼、算術編碼和游程編碼(Run-LengthEncoding,RLE)等。.7/19/2023544.2.1數據壓縮分類限失真編碼限失真編碼也稱有損編碼、非信息保持編碼、熵壓縮編碼。限失真編碼方法利用了人類視覺的感知特性,允許壓縮過程中損失一部分信息,雖然在解碼時不能完全恢復原始數據,但是如果把失真控制在視覺閾值以下或控制在可容忍的限度內,則不影響人們對圖像的理解,卻換來了高壓縮比。在限失真編碼中,允許的失真愈大,則可達到的壓縮比愈高。常見的限失真編碼方法有:預測編碼、變換編碼、矢量量化、基于模型的編碼等。.7/19/202355第4章信源編碼原理4.1數字音頻編碼的基本原理4.2數字視頻編碼概述4.3熵編碼4.4預測編碼4.5變換編碼.7/19/2023564.3熵編碼熵編碼的基本原理就是去除圖像信源在空間和時間上的相關性,去除圖像信源像素值的概率分布不均勻性,使編碼碼字的平均碼長接近信源的熵而不產生失真。由于這種編碼完全基于圖像的統計特性,因此,有時也稱其為統計編碼。.7/19/2023574.3.1哈夫曼編碼哈夫曼于1952年提出一種編碼方法,完全依據符號出現概率來構造異字頭(前綴)的平均長度最短的碼字,有時稱之為最佳編碼。哈夫曼編碼是一種可變長度編碼(VariableLengthCoding,VLC),各符號與碼字一一對應,是一種分組碼。.7/19/2023584.3.1哈夫曼編碼編碼方法.7/19/2023594.3.1哈夫曼編碼哈夫曼編碼的特點哈夫曼編碼的算法是確定的,但編出的碼并非是唯一的。由于哈夫曼編碼的依據是信源符號的概率分布,故其編碼效率取決于信源的統計特性。哈夫曼碼沒有錯誤保護功能。哈夫曼碼是可變長度碼,碼字字長參差不齊,因此硬件實現起來不大方便。對信源進行哈夫曼編碼后,形成了一個哈夫曼編碼表,解碼時,必須參照這一哈夫編碼表才能正確解碼。.7/19/2023604.3.2算術編碼算術編碼是一種非分組編碼,它用一個浮點數值表示整個信源符號序列。算術編碼將被編碼的信源符號序列表示成實數半開區間[0,1)中的一個數值間隔。這個間隔隨著信源符號序列中每一個信源符號的加入逐步減小,每次減小的程度取決于當前加入的信源符號的先驗概率。.7/19/2023614.3.2算術編碼.7/19/2023624.3.3游程編碼
游程編碼(RLE),也稱行程編碼或游程(行程)長度編碼,其基本思想是將具有相同數值(例如,像素的灰度值)的、連續出現的信源符號構成的符號序列用其數值及串的長度表示。以圖像編碼為例,灰度值相同的相鄰像素的延續長度(像素數目)稱為延續的游程,又稱游程長度,簡稱游程。.7/19/202363第4章信源編碼原理4.1數字音頻編碼的基本原理4.2數字視頻編碼概述4.3熵編碼4.4預測編碼4.5變換編碼.7/19/2023644.4預測編碼預測編碼的基本原理就是利用圖像數據的相關性,利用已傳輸的像素值對當前需要傳輸的像素值進行預測,然后對當前像素的實際值與預測值的差值(即預測誤差)進行編碼傳輸,而不是對當前像素值本身進行編碼傳輸,以去除圖像數據中的空間相關冗余或時間相關冗余。.7/19/2023654.4.1幀內預測編碼DPCM系統的基本原理DPCM(DifferentialPulseCodeModulation,差分脈沖編碼調制).7/19/2023664.4.1幀內預測編碼DPCM系統的基本原理
接收端恢復的輸出信號和發送端輸入的信號的誤差是可見,輸入輸出信號之間的誤差主要是由量化器引起的。.7/19/2023674.4.1幀內預測編碼預測模型設時刻之前的樣本值,,…,與預測值之間的關系呈現某種函數形式線性預測編碼器非線性預測編碼器.7/19/2023684.4.1幀內預測編碼在圖像數據壓縮中,常用如下幾種線性預測方案:前值預測,即一維預測,即采用同一掃描行中前面已知的若干個樣值來預測二維預測,即不但用同一掃描行中的前面幾個樣值,而且還要用以前幾行掃描行中樣值來預測
.7/19/2023694.4.2幀間預測編碼序列圖像在時間上的冗余情況可分為如下幾種:對于靜止不動的場景,當前幀和前一幀的圖像內容是完全相同的。對于運動的物體,只要知道其運動規律,就可以從前一幀圖像推算出它在當前幀中的位置。攝像頭對著場景的橫向移動、焦距變化等操作會引起整個圖像的平移、放大或縮小。對于這種情況,只要攝像機的運動規律和鏡頭改變的參數已知,圖像隨時間所產生的變化也是可以推算出來的。
.7/19/2023704.4.2幀間預測編碼運動補償預測
.7/19/2023714.4.2幀間預測編碼運動補償預測所謂運動估值,就是對運動物體的位移作出估計,即對運動物體從前一幀到當前幀位移的方向和像素數作出估計,也就是求出運動矢量。
運動補償預測就是根據求出的運動矢量,找到當前幀的像素(或像素塊)是從前一幀的哪個位置移動過來的,從而得到當前幀像素(或像素塊)的預測值。
.7/19/2023724.4.2幀間預測編碼運動估值分類像素遞歸法:根據像素間亮度的變化和梯度,通過遞歸修正的方法來估計每個像素的運動矢量。讓接收端在與發送端同樣的條件下,用與發送端相同的方法進行運動估值。
.7/19/2023734.4.2幀間預測編碼運動估值分類塊匹配算法:塊匹配算法對當前幀圖像的每一子塊,在前一幀(第K-1幀)的一定范圍內搜索最優匹配,并認為本圖像子塊就是從前一幀最優匹配塊位置處平移過來的。
.7/19/2023744.4.2幀間預測編碼塊匹配算法:
.7/19/2023754.4.2幀間預測編碼運動估值像素遞歸法估計精度高,可以滿足運動補償幀內插的要求。但接收端較復雜,不利于一發多收(如數字電視廣播等)的應用。塊匹配算法雖然作了一定假設(假設位于同一圖像子塊內的所有像素都作相同的運動,且只作平移運動),但滿足了計算復雜度和實時實現的要求。
.7/19/2023764.4.2幀間預測編碼塊匹配算法方塊大小的選取 塊大時,一個方塊可能包含多個作不同運動的物體,塊內各像素作相同平移運動的假設難以成立,影響估計精度。 若塊太小,則估計精度容易受噪聲干擾的影響,不夠可靠,而且傳送運動矢量所需的附加比特數過多,不利于數據壓縮。
一般都用16×16大小塊作為匹配單元。
.7/19/2023774.4.2幀間預測編碼塊匹配算法最優匹配準則
絕對差均值(MAD,MeanAbsoluteDifference)最小準則
另有:均方誤差(MSE,MeanSquaredError)最小準則和歸一化互相關函數最大準則。
.7/19/2023784.4.2幀間預測編碼塊匹配算法最優匹配點的搜索方法窮盡搜索(fullsearch,也稱全搜索)快速搜索:其算法共同之處在于它們把使準則函數(例如,MAD)趨于極小的方向視同為最小失真方向,并假定準則函數在偏離最小失真方向時是單調遞增的,即認為它在整個搜索區內是(i,j)的單極點函數,有唯一的極小值,而快速搜索是從任一猜測點開始沿最小失真方向進行的。
.7/19/2023794.4.2幀間預測編碼塊匹配算法最優匹配點的搜索方法分級搜索:先通過對原始圖像濾波和亞采樣得到一個圖像序列的低分辨率表示,再對所得低分辨率圖像進行全搜索。由于分辨率降低,使得搜索次數成倍減少,這一步可以稱為粗搜索。然后,再以低分辨率圖像搜索的結果作為下一步細搜索的起始點。經過粗、細兩級搜索,便得到了最終的運動矢量估值。
.7/19/2023804.4.2幀間預測編碼運動估值應用運動補償幀間預測編碼運動補償幀間預測編碼主要利用了視頻幀序列中相鄰幀之間的時間相關性,適用于所有的幀間編碼。
.7/19/2023814.4.2幀間預測編碼運動補償幀間預測編碼過程在視頻幀序列中設置參照幀,且第1幀總是參照幀。對于當前的編碼幀,首先在該幀的前一幀和/或后一幀(參照幀)中尋找與該幀的一個圖像方塊最優匹配的圖像方塊。如果找到這樣的最優匹配塊,則進行下列計算:計算當前塊的像素值與參照幀中最優匹配塊(稱參照塊)的像素值之間的差值,即預測誤差;計算當前塊相對于參照塊在水平(x)和垂直(y)兩個方向上的位移,即運動矢量。如果找不到最優匹配塊,則必須進行幀內編碼,即對當前塊的像素樣本值進行編碼傳輸。
.7/19/2023824.4.2幀間預測編碼運動補償幀間預測類型單向運動補償預測:只使用前參照幀或后參照幀中的一個來進行預測。雙向運動補償預測:使用前、后兩個幀作為參照幀來計算各塊的運動矢量,最后只選用與具有最小匹配誤差的參照幀相關的運動矢量值。插值運動補償預測:取前參照幀預測值與后參照幀預測值的平均值。這時,需要對兩個運動矢量分別進行編碼傳輸。.7/19/2023834.4.2幀間預測編碼運動估值應用運動自適應幀內插在低數碼率視頻編碼中對提高圖像質量起著重要作用,通過降低發送端傳送的幀頻來降低數碼率,未傳輸的圖像幀在接收端則由已傳輸的處于該幀前和該幀后的兩個圖像幀的內插來恢復。
.7/19/2023844.4.2幀間預測編碼運動自適應幀內插.7/19/2023854.4.2幀間預測編碼運動自適應幀內插運動自適應幀內插對運動位移估值提出了比運動補償幀間預測更高的要求,它希望得到的位移估值應盡量接近物體的真實運動,而不只是在某種準則函數值最小(或最大)意義上的最優。.7/19/2023864.4預測編碼預測編碼還可應用于對其他參量的編碼中對運動矢量進行預測(把相鄰圖像塊的運動矢量作為本塊運動矢量的預測值),然后對運動矢量的預測誤差進行編碼傳輸。在模型基編碼中,對模型參數進行預測編碼。對各圖像塊離散余弦變換系數的直流分量(DC)進行預測編碼。.7/19/202387第4章信源編碼原理4.1數字音頻編碼的基本原理4.2數字視頻編碼概述4.3熵編碼4.4預測編碼4.5變換編碼.7/19/2023884.5.1變換編碼的基本原理基本原理 變換編碼不直接對空間域圖像數據進行編碼,而是首先將空間域圖像數據映射變換到另一個正交向量空間(變換域),得到一組變換系數,然后對這些變換系數進行量化和編碼。變換編碼系統通常包括正交變換、變換系數選擇和量化編碼3個模塊。.7/19/2023894.5.1變換編碼的基本原理基本原理 為了保證平穩性和相關性,同時也為了減少運算量,在變換編碼中,一般在發送端的編碼器中,先將一幀圖像劃分成若干個N×N像素的圖像塊,然后對每個圖像塊逐一進行變換編碼,最后將各個圖像塊的編碼比特流復合后再傳輸。在接收端,對收到的變換系數進行相應的逆變換,再恢復成圖像數據。.7/19/2023904.5.1變換編碼的基本原理正交變換設一個圖像塊由1×2個像素組成,每個像素的值取8個灰度等級中的任一個,xl代表其中第一個像素的值,x2代表第二個像素的值。
.7/19/2023914.5.1變換編碼的基本原理正交變換
正交變換本身并不能壓縮數據,它只把信號映射到另一個域,但由于變換后系數之間的相關性明顯降低,為在變換域里進行有效的壓縮創造了有利條件。各坐標軸上方差的不均勻分布正是正交變換編碼實現圖像數據壓縮的理論基礎。 .7/19/2023924.5.1變換編碼的基本原理正交變換 圖像經過正交變換能夠實現數據壓縮的物理本質在于:經過多維坐標系中適當的坐標旋轉和變換,散布在各個坐標軸上的原始圖像數據在選擇適當的新坐標系中集中到了少數坐標軸上,因而有可能用較少的編碼比特來表示一個圖像塊,從而實現圖像數據壓縮。.7/19/2023934.5.2DCT圖像編碼各正交變換比較 選擇不同的正交基向量,可以得到不同的正交變換,比如離散傅里葉變換(DFT)、離散余弦變換(DCT)、沃爾什-哈達瑪變換(WHT)、斜變換、K-L變換等。從數學上可以證明,各種正交變換都能在不同程度上減小隨機向量的相關性,而且信號經過大多數正交變換后,能量會相對集中在少數變換系數上,刪去對信號貢獻較小(方差小)的系數,只利用保留下來的系數恢復信號時,不會引起明顯的失真。.7/19/2023944.5.2DCT圖像編碼各正交變換比較在理論上,K-L變換是在均方誤差(MSE)準則下的最佳變換,它是建立在統計特性基礎上的一種變換。由于K-L變換是取原圖像各子塊的協方差矩陣的特征向量作為變換基向量,因此K-L變換的變換基是不固定的,且與編碼對象的統計特性有關。對大多數圖像信源來說,DCT的性能最接近K-L變換,同時其變換基向量是固定的,且有快速算法.7/19/2023954.5.2DCT圖像編碼DCT編碼和解碼原理.7/19/2023964.5.2DCT圖像編碼DCT變換8×8
二維DCT變換8×8
二維DCT反變換當時,當u、v為其他值時.7/19/2023974.5.2DCT圖像編碼DCT變換
8×8二維DCT反變換的變換核函數為
按u,v分別展開后得到64個8×8像素的圖像塊組,稱為基圖像。.7/19/2023984.5.2DCT圖像編碼DCT變換基圖像.7/19/2023994.5.2DCT圖像編碼DCT變換補:水平空間頻率:畫面寬帶范圍內垂直黑白條的周期數。垂直空間頻率:畫面高帶范圍內水平黑白條的周期數。隨著u,v
的增加,相應系數分別代表逐步增加的水平空間頻率和垂直空間頻率分量的大小。.7/19/20231004.5.2DCT圖像編碼DCT變換
DCT變換過程看作是把一個圖像塊表示為基圖像的線性組合,這些基圖像是輸入圖像塊的組成“頻率”。DCT變換輸出64個基圖像的幅值即“DCT系數”,是輸入圖像塊的“頻譜”。64個變換系數中包括一個代表直流分量的“DC系數”和63個代表交流分量的“AC系數”。.7/19/20231014.5.2DCT圖像編碼量化
量化處理是一個多到一的映射,它是造成DCT編解碼信息損失的根源。根據人眼的視覺特性,對不同的變換系數設置不同的量化步長。.7/19/20231024.5.2DCT圖像編碼量化
JPEG標準中每個亮度DCT系數的量化步長1611101624405161121214192658605514131624405769561417222951878062182237566810910377243555648110411392496478871031211201017292959811210010399.7/19/20231034.5.2DCT圖像編碼量化
JPEG標準中每個色度DCT系數的量化步長17182447999999991821266699999999242656999999999947669999999999999999999999999999999999999999999999999999999999999999999999999999.7/19/20231044.5.2DCT圖像編碼變換系數熵編碼
Zig-Zag(或稱“Z”字形,“之”字形)掃描
DC直流系數AC01交流系數掃描開始交流系數掃描結束AC07AC70AC77.7/19/20231054.5.2DCT圖像編碼變換系數熵編碼直流分量(DC):
相鄰圖像子塊的直流分量(圖像子塊的平均樣值)也存在著相關性,所以對DC的量化系數用DPCM編碼較合適,即對當前塊和前一塊的DC系數的差值進行編碼。交流分量(AC):把數值為0的連續長度(即0的游長)和非0值結合起來構成一個事件(Run,Level),然后再對事件(Run,Level)進行熵編碼。
.7/19/20231064.5.2DCT圖像編碼DCT編碼的示例139144149153155155155155144151153156159156156156150155160163158156156156159161162160160159159159159160161162162155155155161161161161160157157157162162161163162157157157162162161161163158158158(a)原始圖像塊的亮度樣值
.7/19/20231074.5.2DCT圖像編碼DCT編碼的示例(b)對應的DCT系數1259.6-1.0-12.1-5.22.1-1.7-2.7-1.3-22.6-17.5-6.2-3.2-2.9-0.10.4-1.2-10.9-9.3-1.61.50.2-0.9-0.6-0.1-7.1-1.90.21.50.9-0.10.00.3-0.6-0.81.51.6-0.1-0.70.61.3-1.8-0.21.6-0.3-0.81.51.0-1.0-1.3-0.4-0.3-1.5-0.51.71.1-0.8-2.61.6-3.8-1.81.91.2-0.6-0.4.7/19/20231084.5.2DCT圖像編碼DCT編碼的示例(c)量化后的系數790-100000-2-1000000-1-10
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 超神數學-高考數學總復習基礎篇(一輪)(練習冊)專題01集合(含答案或解析)
- 自動步槍斜角射擊技巧
- 中國高校新文科發展報告
- 歷史隋唐時期的民族交往與交融 課件 2024-2025學年統編版七年級歷史下冊
- 2025年鄉村文化旅游與鄉村旅游人才培養研究報告
- 2025年電商平臺內容營銷與種草經濟在寵物醫療行業的互動營銷報告
- 2025年海上風力發電場運維管理智能化技術創新路徑研究報告
- 2025年特色農產品加工園區社會穩定風險評估與農村社會治理創新研究
- 數字化轉型2025年制造業供應鏈協同管理供應鏈金融創新報告
- 外賣平臺食品安全監管現狀及發展趨勢報告2025
- 小鎮文旅康養項目可研報告【健康養老】【旅游康養】
- 2024廣西公需課高質量共建“一帶一路”譜寫人類命運共同體新篇章答案
- EHS專項施工EHS管理組織機構
- 2024年南安市國有資本投資運營有限責任公司招聘筆試沖刺題(帶答案解析)
- T/CEC 143-2017 超高性能混凝土電桿完整
- MOOC 工程電磁場與波-浙江大學 中國大學慕課答案
- 清罐應急預案
- 《水泥熟料的組成》課件
- 草籽采購(牧草種子采購)投標方案(技術方案)
- 金融糾紛調解培訓課件模板
- wedo2完整版本.0第一課拉力小車
評論
0/150
提交評論