第四章多媒體數據壓縮技術介紹.ppt_第1頁
第四章多媒體數據壓縮技術介紹.ppt_第2頁
第四章多媒體數據壓縮技術介紹.ppt_第3頁
第四章多媒體數據壓縮技術介紹.ppt_第4頁
第四章多媒體數據壓縮技術介紹.ppt_第5頁
免費預覽已結束,剩余94頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

專業選修課程 武漢大學 多媒體技術 MultimediaTechniques 第四章多媒體數據壓縮技術 4 1多媒體數據壓縮技術概述4 2常用多媒體數據壓縮方法4 3語音信號編碼的標準與方法4 4靜態圖像壓縮編碼技術4 5動態圖像壓縮編碼技術 第四章多媒體數據壓縮技術 4 1多媒體數據壓縮技術概述 數據編碼包括 信源編碼信道編碼信源編碼 為了表示和 或壓縮從信號源產生出來的信號而進行的編碼 主要解決有效性問題 信道編碼 為了使處理過的信號在傳輸過程中不出錯或少出錯 以及即使出了錯也能自動檢錯或盡量糾錯而進行的編碼 主要解決可靠性問題 多媒體數據的壓縮主要是對視頻數據和音頻數據的壓縮 二者使用的基本技術是相同的 為什么要壓縮數據的冗余性壓縮和解壓縮過程壓縮評價和分類數據壓縮常常又稱為數據信源編碼 或簡稱為數據編碼 數據壓縮的逆過程稱為數據解壓縮 也稱為數據信源解碼 或簡稱為數據解碼 4 1多媒體數據壓縮技術概述 4 1多媒體數據壓縮技術概述 4 1多媒體數據壓縮技術概述 4 1多媒體數據壓縮技術概述 4 1多媒體數據壓縮技術概述 4 1多媒體數據壓縮技術概述 4 1多媒體數據壓縮技術概述 4 1多媒體數據壓縮技術概述 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 4 2常用多媒體數據壓縮方法 詞典編碼分類 詞典編碼的根據 數據本身包含有重復代碼序列 屬于通用編碼技術和無損壓縮技術詞典編碼法分類第一類詞典法 查找正在壓縮的字符序列是否在前面的輸入數據中出現過 如果是 則用指向早期出現過的字符串的 指針 替代重復的字符串 第二類算法 從輸入的數據中創建一個 短語詞典 dictionaryofthephrases 編碼數據過程中當遇到已經在詞典中出現的 短語 時 編碼器就輸出這個詞典中的短語的 索引號 而不是短語本身 LZW算法 LZW與LZ78的差別 LZW只輸出代表詞典中的綴 符串 String 的碼字 codeword 這意味在開始時詞典不能是空的 它必須包含可能在字符流出現中的所有單個字符 即前綴根 Root 由于所有可能出現的單個字符都事先包含在詞典中 每個編碼步驟開始時都使用一字符前綴 one characterprefix 因此在詞典中搜索的第1個綴 符串有兩個字符 3 5 5 1編碼算法 LZW編碼是圍繞稱為詞典的轉換表來完成的 這張轉換表用來存放稱為前綴 Prefix 的字符序列 并且為每個表項分配一個碼字 Codeword 或者叫做序號 LZW編碼器 軟件編碼器或硬件編碼器 通過管理這個詞典完成輸入與輸出之間的轉換 LZW編碼器使用的分析 parsing 算法 稱為貪婪分析算法 greedyparsingalgorithm 貪婪分析算法 每一次分析都要串行地檢查來自字符流Charstream的字符串 從中分解出已經識別的最長的字符串 也就是已經在詞典中出現的最長的前綴Prefix 用已知的前綴Prefix加上下一個輸入字符C也就是當前字符 Currentcharacter 作為該前綴的擴展字符 形成新的擴展字符串 綴 符串String Prefix C 新的綴 符串String是否要加到詞典中 要看詞典中是否存有和它相同的綴 符串String 如果有 那么這個綴 符串String就變成前綴Prefix 繼續輸入新的字符 否則就把這個綴 符串String寫到詞典中生成一個新的前綴Prefix 并給一個代碼 3 5 5 1LZW編碼算法步驟 步驟1 開始時的詞典包含所有可能的根 Root 而當前前綴P是空的 步驟2 當前字符 C 字符流中的下一個字符 步驟3 判斷綴 符串P C是否在詞典中把代表當前前綴P的碼字輸出到碼字流 把綴 符串P C添加到詞典 令P C 即現在的P僅包含一個字符C 步驟4 判斷碼字流中是否還有碼字要譯如果 是 返回到步驟2 如果 否 則把代表當前前綴P的碼字輸出到碼字流 結束 例 被編碼字符串 LZW的編碼過程 3 5 5 2LZW譯碼算法 步驟1 在開始譯碼時詞典包含所有可能的前綴根 Root 步驟2 cW 碼字流中的第一個碼字 步驟3 輸出當前綴 符串string cW到碼字流 步驟4 先前碼字pW 當前碼字cW 步驟5 當前碼字cW 碼字流中的下一個碼字 步驟6 判斷先前綴 符串string pW是否在詞典中1 如果 是 把先前綴 符串string pW輸出到字符流 當前前綴P 先前綴 符串string pW 當前字符C 當前前綴 符串string cW的第一個字符 把綴 符串P C添加到詞典 2 如果 否 當前前綴P 先前綴 符串string pW 當前字符C 當前綴 符串string cW的第一個字符 輸出綴 符串P C到字符流 然后把它添加到詞典中 步驟7 判斷碼字流中是否還有碼字要譯1 如果 是 就返回到步驟4 2 如果 否 結束 例 續 LZW的譯碼過程 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 LPC在語音處理中得到廣泛應用 發展了許多算法 多脈沖線性預測編碼 MPLPC 規則脈沖激勵編碼 RPE 碼激勵線性預測 CELP 代數激勵線性預測 ACELP 向量和激勵線性預測 VSELP QCELP QualcommCELP 變速率CELP 低延時碼激勵線性預測 LD CELP 共軛結構代數激勵線性預測 CS ACELP 混合激勵線性預測 MELP 間隔同步更新碼激勵線性預測 PSI CELP 松弛碼激勵線性預測 RCELP 殘差激勵線性預測 RELP 規則脈沖激勵長時預測 RPE LTP 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 4 3語音信號編碼的標準與方法 MP3音頻壓縮編碼 MP3是一種音頻壓縮的國際技術標準 MP3格式開始于二十世紀80年代中期 是在德國夫朗和費研究所 FraunhoferInstitute 開始的 研究致力于高質量 低數據率的聲音編碼 1989年 夫朗和費研究所在德國被獲準取得了MP3的專利權 幾年后這項技術被提交到國際標準組織 ISO 整合進入了MPEG 1標準 MP3格式是一個讓音樂界產生巨大震動的一個聲音格式 MP3的全稱是MovingPictureExpertsGroup AudioLayer3 它所使用的技術是在VCD MPEG 1 的音頻壓縮技術上發展出的第三代 而不是MPEG 3 MP3音頻壓縮編碼 MPEG代表的是MPEG活動影音壓縮標準 MPEG音頻文件指的是MPEG標準中的聲音部分即MPEG音頻層 MPEG音頻文件根據壓縮質量和編碼復雜程度的不同可分為三層 MPEGAUDIOLAYER1 2 3分別與MP1 MP2和MP3這三種聲音文件相對應 MPEG音頻編碼具有很高的壓縮率 MP1和MP2的壓縮率分別為4 1和6 1 8 1 而MP3的壓縮率則高達10 1 12 1 也就是說一分鐘CD音質的音樂未經壓縮需要10MB存儲空間 而經過MP3壓縮編碼后只有1MB左右 同時其音質基本保持不失真 MP3音頻壓縮編碼 音樂信號中有許多冗余成分 其中包括間隔和一些人耳分辨不出的信息 如混雜在較強背景中的弱信號 MP3為降低聲音失真采取了名為 感官編碼技術 的編碼算法 編碼時先對音頻文件進行頻譜分析 然后用過濾器濾掉噪音 接著通過量化的方式將剩下的每一位打散排列 最后形成具有較高壓縮比的MP3文件 并使壓縮后的文件在回放時能夠達到比較接近原音源的聲音效果 雖然它是一種有損壓縮 但是它的最大優勢是以極小的聲音失真換來了較高的壓縮比 音頻編碼標準 G 711G 722G 723 1G 728G 729音頻編碼標準比較 G 711 1972年CCITT為電話質量和語音壓縮制定了PCM標準G 711 其速率為64kb s 使用 律或A律的非線性量化技術 主要用于公共電話網中 G 722 1988年CCITT為調幅廣播質量的音頻信號壓縮制定了G 722標準 它使用子帶編碼 SBC 方案 其濾波器組將輸入信號分成高低兩個子帶信號 然后分別使用ADPCM進行編碼 G 722能將224kb s的調幅廣播質量的音頻信號壓縮為64kb s 主要用于視聽多媒體和會議電視等 G 722的主要目標是保持64kb s的數據率 而音頻信號的質量要明顯高于G 711的質量 G 723 1 1996年ITU T通過了G 723標準 用于多媒體傳輸的5 3kb s或6 3kb s雙速率話音編碼 它采用多脈沖激勵最大似然量化 MP MLQ 算法 此標準可應用于可視電話及IP電話等系統中 G 728 為了進一步降低壓縮的速率 CCITT于1992年制定了G 728標準 使用基于低時延碼本激勵線性預測編碼 LD CELP 算法 其速率為16kb s 主要用于公共電話網中 G 729 ITU T于1996年3月通過了G 729標準 它使用8kb s的共軛結構代數碼激勵線性預測 CS ACELP 算法 此標準將在無線移動網 數字多路復用系統和計算機通信系統中應用 音頻編碼標準比較 第四講數字語音處理技術 數字音頻壓縮技術三維音效語音識別自然語言理解語音合成 三維音效 人類的聽覺3D音效的分類杜比AC 3DTS 人類的聽覺 人耳的基本聲音定位原理是IID InterauralIntensityDifference 兩側聲音強度差別 和ITD InterauralTimeDifference 兩側聲音時間延遲差別 IID指距離音源較近的哪一邊耳朵 所收到的聲音強度比另一側高 感到聲音更大一些 ITD指方位的不同 使聲音到達兩耳的時間有差別 人們會覺得聲音位于到達時間早些的那一邊 IID ITD的結果是把音源定位到以聽者兩耳這間連線為軸線的錐體范圍之內 人類的聽覺 耳廓 外耳 的作用是濾波器 根據聲音的不同角度 加強 減弱音波能量 過濾之后傳給大腦 讓我們更準確地聲源的位置 耳廓的大小有限 因此能夠收到的音波范圍也有限 通常是20Hz到20KHz 即波長16米到1 6厘米的音波 換言之 低于此范圍是次聲波 高于此范圍是超聲波 由于兩耳機的距離約為15厘米 當波長大于15厘米時IIT和ITD將會減弱 頻率低的聲音波長大 因此我們很難判斷出低音的位置 卻能輕易分辨高音的方位 實際上 耳廓對于聲音的定位 是至關重要的一環 沒有外耳的人難以判斷聲音發出的位置 人類的聽覺 人類依靠一種稱為HRTF HeadRelatedTransferFunction 頭部關聯傳輸功能 的系統來判斷聲音發出的位置 每個人的HRTF都不盡相同 還可以進行交換 HRTF的檢測非常簡單 先在人的耳道內放置兩個微型麥克風 再在聽者附近放一個音箱 播放確定的信號 同時記錄麥克風收到的信號 比較源信號和麥克風的脈沖特性曲線就可以得到其中一個濾波效果 最后于聽者附近的所有位置重復上述過程 即可獲取完整的HRTF系統 三維音效 人類的聽覺3D音效的分類杜比AC 3DTS 3D音效的分類 3D音效的兩個最重要因素是定位和交互 定位即讓人們準確地判斷出聲音的來源 可以通過預選錄制聲音 再進行特定的解碼來實現 實時的定位就是交互 聲音并非預選錄制好的 而是按照你的控制來決定聲音的位置 即時生成的交互式聲音對輸入設備的要求 比預選錄制音軌的放音設備 如 電影 要更強一些 3D音效的分類 擴展式立體聲它使用聲音延遲技術對傳統的立體聲進行額外處理 擴寬了音場的位置 使聲音延展到音箱以外的空間 讓我們感覺的3D世界更廣闊環繞立體聲它采用音頻壓縮技術 如 杜比AC 3 把多通道音源編碼成一段程序 再以一組多揚聲器系統來進行解碼 實現多區域環繞效果 交互式3D音效交互式3D盡量地復制了人耳在真實世界中聽到的聲音 并使用一定的算法來播放出來 讓我們感到整個三維空間的所有地方都可能產生聲音 并隨聽者的移動而做出相應改變 三維音效 人類的聽覺 3D音效的分類杜比AC 3DTS 杜比AC 3 為了提高HDTV聲音的質量 避免模擬矩陣編碼的局限性 提出了雙通道的碼率提供多通道的編碼性能的設想 杜比AC 3就是為了實現這一設想而開發的 杜比AC 3可以把五個獨立的全頻帶和一個超低音通道的信號實行統一編碼 成為單一的復合數據流 AC 3的頻響為20Hz 20kHz 0 5dB 3dB時為3Hz 20 3kHz 超低聲道頻率范圍是20Hz 120Hz 0 5dB 可支持32kHz 44 1kHz 48kHz三種取樣頻率 數碼率可低至單聲道的32kb s 高到多聲道640kb s 以適應不同需要 杜比AC 3 AC 3采用基于改良離散余弦變換 MDCT 的自適應變換編碼 ATC 算法 ATC算法的一個重要考慮是基于人耳聽覺掩蔽效應的臨界頻帶理論 即在臨界頻帶內一個聲音對另一個聲音信號的掩蔽效應最明顯 因此 劃分頻帶的濾波器組要有足夠銳利的頻率響應 以保證臨界頻帶外的噪聲衰減足夠大 使時域和頻域內的噪聲限定在掩蔽門限以下 三維音效 人類的聽覺 3D音效的分類 杜比AC 3DTS DTS DTS是 DigitalTheatreSystem 的縮寫 是 數字化影院系統 的意思 從技術上講 DTS與包括DolbyDigital在內的其它聲音處理系統是完全不同的 Dol

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論