多媒體搜索引擎_第1頁
多媒體搜索引擎_第2頁
多媒體搜索引擎_第3頁
多媒體搜索引擎_第4頁
多媒體搜索引擎_第5頁
已閱讀5頁,還剩25頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多媒體搜索引擎多媒體文檔及其內容理解(4)2022年2月12日Multimedia Search Engine2壓縮基于頻域變換的圖像編碼把圖像變換到頻率域在頻率域中,對低頻信號采取較小量化步長量化,對高頻信號采取較大量化步長量化大量高頻信號變成“0”用熵編碼輸出量化系數由于有大量的“0”,數據得到壓縮熵編碼源圖像正向變換量化壓縮圖像2022年2月12日Multimedia Search Engine3壓縮基于頻域變換的圖像編碼基于DCT的圖像壓縮(JPEG)DCT變換:一類正交變換l正交變換特性l可逆熵保持(信息不丟失)l去相關變換系數線性無關(設計目的)l能量集中:大部分能量集中到少數變換

2、系數熵編碼源圖像正向變換量化壓縮圖像2022年2月12日Multimedia Search Engine4壓縮基于DCT的圖像壓縮DCT的基函數生成每個變換系數所用的各點權重l不同的系數與不同的空域頻率共振l第一個系數:DCl整個塊的平均值熵編碼源圖像正向變換量化壓縮圖像2022年2月12日Multimedia Search Engine5壓縮基于DCT的圖像壓縮變換前像素值熵編碼源圖像正向變換量化壓縮圖像52 55 61 66 70 61 64 7363 59 66 90 109 85 69 7262 59 68 113 144 104 66 7363 58 71 122 154 106 7

3、0 6967 61 68 104 126 88 68 7079 65 60 70 77 68 58 7585 71 64 59 55 61 65 8387 79 69 68 65 76 78 942022年2月12日Multimedia Search Engine6壓縮基于DCT的圖像壓縮變換后系數熵編碼源圖像正向變換量化壓縮圖像.sg/cs5248/l01/DCTdemo.html-415 -29 -62 25 55 -20 -1 3 7 -21 -62 9 11 -7 -6 6 -46 8 77 -25 -30 10 7 -5 -50 13 35 -15 -9

4、 6 0 3 11 -8 -13 -2 -1 1 -4 1 -10 1 3 -3 -1 0 2 -1 -4 -1 2 -1 2 -3 1 -2 -1 -1 -1 -2 -1 -1 0 -12022年2月12日Multimedia Search Engine7壓縮基于DCT的圖像壓縮量化對DCT變換后的系數進行量化l系數除以量化步長再取整l不可逆信息丟失l依據心理視覺特性量化l丟失難以看見的信息l保留容易看見的信息l如果量化臺階小于人眼在該頻率的靈敏度,則量化噪聲無法被看見熵編碼源圖像正向變換量化壓縮圖像-415/16 = -26-26*16 = -4162022年2月12日Multimedia

5、 Search Engine8壓縮基于DCT的圖像壓縮量化JPEG建議的亮度分量量化值9910310011298959272101120121103877864499211310481645535247710310968563722186280875129221714566957402416131455605826191412126151402416101116熵編碼源圖像正向變換量化壓縮圖像2022年2月12日Multimedia Search Engine9壓縮基于DCT的圖像壓縮量化后的系數熵編碼源圖像正向變換量化壓縮圖像-26 -3 -6 2 2 0 0 0 1 -2 -4 0 0 0

6、 0 0 -3 1 5 -1 -1 0 0 0 -4 1 2 -1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2022年2月12日Multimedia Search Engine10壓縮基于DCT的圖像壓縮Zig-zag:把0系數盡量歸并到一起游程編碼0系數-26 (DC) (0, -3) (0, 1) (0, -3) EOB熵編碼源圖像正向變換量化壓縮圖像-26 -3 -6 2 2 0 0 0 1 -2 -4 0 0 0 0 0 -3 1 5 -1 -1 0 0 0 -4 1 2 -1 0

7、0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 EOB2022年2月12日Multimedia Search Engine11壓縮基于DCT的圖像壓縮DC系數先做預測編碼,再做熵編碼l用前一塊的DC系數預測本塊的DC系數AC系數游程編碼后二元組直接用于熵編碼熵編碼源圖像正向變換量化壓縮圖像2022年2月12日Multimedia Search Engine12壓縮基于DCT的圖像壓縮使用的技術顏色空間:通常用YUVl顏色分量亞采樣:通常用4:2:0l即使不用亞采樣,YUV空間也比RGB空間容易壓縮l使用

8、高級壓縮技術,顏色分量亞采樣用處不大頻域變換:DCT基于心理視覺的量化系數設置預測編碼(DC系數)Zig-zag和游程編碼(AC系數)熵編碼(霍夫曼或算術編碼)2022年2月12日Multimedia Search Engine13壓縮基于DCT的圖像壓縮優點實現較簡單對自然圖像壓縮率不錯缺點塊效應l由于每8x8塊獨立處理,塊的邊界上很容易出現前后塊差異較大的情況l人眼對邊緣敏感不能實現無損壓縮2022年2月12日Multimedia Search Engine14壓縮基于小波變換的圖像壓縮(JPEG2000)小波變換(wavelet transformation)用一對濾波器對圖像進行濾波,

9、把圖像分解成不同的頻帶l濾波器對:低通濾波器+高通濾波器2022年2月12日Multimedia Search Engine15壓縮基于小波變換的圖像壓縮(JPEG2000)小波變換(wavelet transformation)2022年2月12日Multimedia Search Engine16壓縮基于小波變換的圖像壓縮(JPEG2000)二者均在約43:1的壓縮率時JPEGJPEGJPEG2000JPEG20002022年2月12日Multimedia Search Engine17壓縮基于小波變換的圖像壓縮(JPEG2000)優點無塊效應l整個圖像統一處理,不存在塊邊界可實現無損壓縮

10、同等質量下壓縮率高缺點運算復雜l計算量大,存儲開銷大2022年2月12日Multimedia Search Engine18壓縮視頻的壓縮視頻:連續的多個圖像用JPEG編碼每幀Motion JPEGl壓縮率低視頻的特點:相鄰幀之間的差異很小預測編碼:用前面的幀預測后面的幀l用后面的幀預測前面的幀?2022年2月12日Multimedia Search Engine19壓縮視頻的壓縮I幀(Intra Frame)不進行幀間預測,只使用DCT變換進行編碼lJPEGP幀(Predictive Frame)用前面的幀預測l直接用對應像素預測?I P P P P2022年2月12日Multimedia

11、Search Engine20壓縮視頻的壓縮是否可以用后續幀來預測?順序編碼:后續幀不可能先被處理,所以解碼器不可能事先獲得后續幀不可以不能順序編碼幀重排序2022年2月12日Multimedia Search Engine21壓縮視頻的壓縮幀重排序把用于反向預測的幀提前編碼和傳輸B幀(Bi-directional Frame)1 2 3 4 5 6 71 4 2 3 7 5 6?XXMPEG演示2022年2月12日Multimedia Search Engine22壓縮視頻壓縮標準H.261僅I/P幀,面向500-1000kbps的視頻傳輸MPEG-1/H.262I/P/B幀,VHS質量,1

12、.5Mbps左右H.263I/P/B幀,更小的運動補償單位,100kbps視頻MPEG-2, MPEG-4, 較高和高質量視頻,DVD/HDTV2022年2月12日Multimedia Search Engine23壓縮總結數據可以被壓縮的原因數據的真實信息量小于數據的總量l我們只需要真實的信息數據包含人無法感知的信息l我們只需要可感知的信息文檔語義僅可能來自真實的、可感知的信息l壓縮原理與多媒體文檔內容理解技術密切相關數據壓縮的基本原理根據已經處理的數據盡可能準確地預測后續數據2022年2月12日Multimedia Search Engine24多媒體文檔的語義多媒體文檔包含豐富的語義“百

13、聞不如一見”要檢索多媒體文檔,必須提取這些語義如何提取2022年2月12日Multimedia Search Engine25多媒體文檔的語義可對應于文字的語義話音ASR(Automatic Speech Recognition)字符圖像OCR(Optical Character Recognition)物體、類別等2022年2月12日Multimedia Search Engine26多媒體文檔的語義無法或難以對應于文字的語義2022年2月12日Multimedia Search Engine27多媒體文檔的語義語義的表示可對應于文字的語義用文字表示l如何提???無法或難以對應于文字的語義如何表示?如何運算?如何檢索?2022年2月12日Multimedia Search Engine28多媒體文檔的語義面臨的問題多媒體數據的原始信息像素矩陣/音頻數組需要的信息便于計算和檢索的信息文字信息兩種信息差異巨大無法一步跨越底層數據高層語義語義鴻溝2022年2月12日Multimedia Search Engine29多媒體文檔的語義面臨的問題多媒體數據的原始信息像素矩陣/音頻數組需要的信息便于計算和檢索的信息文字信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論