多媒體信息處理的必要性和可行性_第1頁
多媒體信息處理的必要性和可行性_第2頁
多媒體信息處理的必要性和可行性_第3頁
多媒體信息處理的必要性和可行性_第4頁
多媒體信息處理的必要性和可行性_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多媒體信息處理的必要性和可行性第1頁,共26頁,2023年,2月20日,星期一2.1多媒體信息的特點

多媒體信息主要有三個特征:(1)數(shù)據(jù)量龐大:和文本信息相比,語音、圖像的信息量就顯得十分龐大。例如,用生動的語音表達和文本文字相同的一段內(nèi)容,語音所需要的數(shù)據(jù)量要比文本大10倍以上。若要用圖像來大體表示同樣的意思,則圖像所需要的數(shù)據(jù)量又不知道要大多少倍了。

第2頁,共26頁,2023年,2月20日,星期一

(2)碼率可變、突發(fā)性強:代表多媒體信息的數(shù)據(jù)流其碼率是隨著不同的信息內(nèi)容、所處的不同時間而不斷變化的。人們講話時的停頓、所傳場景圖像中物體的運動等都會形成碼流速率的波動,而且這種波動往往呈現(xiàn)出極強的突發(fā)性。再加上采用了種種信息壓縮編碼的方法,就更加劇了這種變化。(3)復(fù)合性信息多,同步性、實時性要求高:多媒體通信系統(tǒng)中傳輸?shù)耐莾煞N或兩種以上媒體的復(fù)合信息,各類信息之間存在著很強的關(guān)聯(lián),因此,對信息傳輸?shù)耐叫约皩崟r性的要求相當(dāng)高。第3頁,共26頁,2023年,2月20日,星期一2.2信息壓縮的必要性

1.圖像或視頻信號以彩色電視信號為例,設(shè)代表光強、色彩和色飽和度的YIQ空間中各分量的帶寬分別為4MHz、1.3MHz和0.5MHz。由采樣定理,僅當(dāng)采樣頻率≥2倍的原始信號的頻率時,才能保證采樣后的信號可被保真地恢復(fù)為原始信號。

設(shè)各樣點均被數(shù)字化為8bit,從而1s的數(shù)據(jù)量為(4+1.3+0.5)×2×8bit=92.8Mbit因而一張640MB的CDROM能夠存放的原始電視數(shù)據(jù)(每字節(jié)附有2位校驗位)為:640×8/[92.8×(1+0.25)]=44s即一張普通光盤只能存放44s的原始數(shù)據(jù)。

第4頁,共26頁,2023年,2月20日,星期一

2.語音信號人在正常說話時的音頻一般在200Hz~3.4kHz,即人類語音的帶寬為3.4kHz。同樣依據(jù)采樣定理,并設(shè)數(shù)字化精度為8bit,則每秒的數(shù)據(jù)量為

3.4kHz×2×8=54.4kbit

在上述采樣條件下講一分鐘話的數(shù)據(jù)量約為400kbit。表2.2-1列出了支持語音、圖像、視頻等多媒體信號高質(zhì)量存儲和傳輸所必需的未壓縮速率以及信號特性。

第5頁,共26頁,2023年,2月20日,星期一表2.2-1各種信號的特性和未壓縮速率

第6頁,共26頁,2023年,2月20日,星期一

未進行編碼和壓縮:窄帶語音信號需要128kb/s的速率,即兩倍于普通電話的速率。寬帶話音需要256kb/s的速率,雙聲道立體聲CD音頻需要1.41Mb/s的速率。

在保持原始信號質(zhì)量的前提下壓縮:窄帶語音4kb/s(30∶1的壓縮比),寬帶話音16kb/s(15∶1的壓縮比),CD音頻64kb/s(22∶1的壓縮比)。

對于多媒體處理系統(tǒng)的語音、圖像、視頻、文本、數(shù)據(jù)的結(jié)合,信號進行存儲和傳輸之前,必須進行處理,而最關(guān)鍵的處理方法是壓縮。多媒體信息壓縮技術(shù)的對象主要是視頻、音頻和文本信息這三大類。如對多數(shù)圖像實現(xiàn)大于100∶1的壓縮比,而質(zhì)量沒有重大損失。第7頁,共26頁,2023年,2月20日,星期一2.3信息壓縮的可行性

數(shù)據(jù)中通常包含很大的冗余,數(shù)據(jù)的大小與所攜帶的信息量的關(guān)系由下式給出:

I=D-r(2.3-1)

其中I,D,r分別為信息量、數(shù)據(jù)量與冗余量。以存儲一本200萬字的中文百科全書為例,每個漢字以2字節(jié)計算,該書的數(shù)據(jù)量為4MB。若使用Huffman算法,就可簡單地將大約2MB左右的冗余數(shù)據(jù)尋找出來并壓縮掉,這樣就可以節(jié)省出2MB的存儲空間。第8頁,共26頁,2023年,2月20日,星期一

1.空間冗余在任何一幅圖像中,均有許多灰度或顏色都相同或相近的鄰近像素組成的局部區(qū)域,它們形成了一個性質(zhì)相同的集合塊,即它們之間具有空間上的強相關(guān)性,表現(xiàn)為空間冗余。

對空間冗余的壓縮方法就是把這種集合塊當(dāng)作一個整體,用極少的數(shù)據(jù)量來表示它,從而節(jié)省了存儲空間。這種壓縮方法叫空間壓縮或幀內(nèi)壓縮,它的基本點就在于減少鄰近像素之間的空間相關(guān)性。第9頁,共26頁,2023年,2月20日,星期一圖2.3-1空間冗余第10頁,共26頁,2023年,2月20日,星期一

2.時間冗余時間冗余是活動圖像和語音數(shù)據(jù)中經(jīng)常包含的冗余。活動圖像中的兩幅相鄰的圖像有較大的相關(guān)性,這反映為時間冗余。同理,在語音中,由于人在說話時其發(fā)出的音頻是一個連續(xù)和漸變的過程,而不是一個完全的時間上獨立的過程,因而存在著時間冗余。利用這種時間冗余,可實現(xiàn)數(shù)據(jù)壓縮。這種壓縮對運動圖像往往能得到很高的壓縮比,這也稱為時間壓縮或幀間壓縮。第11頁,共26頁,2023年,2月20日,星期一圖2.3-2時間冗余第12頁,共26頁,2023年,2月20日,星期一第13頁,共26頁,2023年,2月20日,星期一

3.信息熵冗余(編碼冗余)所謂熵就是平均信息量。(2.3-2)

圖2.3-3結(jié)構(gòu)冗余示意圖(草席)

4.結(jié)構(gòu)冗余

第14頁,共26頁,2023年,2月20日,星期一

5.知識冗余人們通過認識世界而得到某些圖像所具有的先驗知識和背景知識,由此帶來的冗余稱為知識冗余。如人臉的圖像有固定的結(jié)構(gòu),嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正臉圖像的中線上等等。這類規(guī)律的結(jié)構(gòu)可由先驗知識和背景知識得到,因此這類信息對一般人來說是冗余信息。第15頁,共26頁,2023年,2月20日,星期一

6.視覺聽覺冗余以視覺為例,人類的視覺系統(tǒng)并不能對圖像畫面的任何變化都能感覺到,視覺系統(tǒng)對于圖像場的注意是非均勻和非線性的,即注意主要部分質(zhì)量,同時取畫面的整體效果,不拘泥每一個細節(jié)。例如,人的視覺對于圖像邊緣的急劇變化不敏感,對圖像的亮度信息敏感,對顏色的分辨率較弱等。因此,如果圖像經(jīng)壓縮或量化發(fā)生的變化(或稱引入了噪聲)不能被視覺所感覺,則認為圖像質(zhì)量是完好的或是夠好的,即圖像壓縮并恢復(fù)后仍有滿意的主觀圖像質(zhì)量。第16頁,共26頁,2023年,2月20日,星期一

7.其他冗余多媒體數(shù)據(jù)除了具有上面所說的各種冗余外,還存在一些其他的冗余類型。例如,圖像的空間非定常特性所帶來的冗余,頻譜冗余等。空間冗余和時間冗余是將圖像信號看作為隨機信號時所反映出的統(tǒng)計特征,因此有時把這兩種冗余稱為統(tǒng)計冗余。它們也是多媒體圖像數(shù)據(jù)處理中兩種最主要的數(shù)據(jù)冗余。第17頁,共26頁,2023年,2月20日,星期一2.4數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)

1.壓縮比(編碼效率)壓縮性能常常用壓縮比來定義,也就是壓縮過程中輸入數(shù)據(jù)量和輸出數(shù)據(jù)量之比。壓縮比越大,說明數(shù)據(jù)壓縮的程度越高。在實際應(yīng)用中,壓縮比可以定義為比特流中每個樣點所需要的比特數(shù)。

由于同一壓縮編碼算法對不同信號的編碼效率往往不同。為了公平地衡量壓縮編碼算法的效率,常常需要定義一些所謂的“標(biāo)準(zhǔn)圖像(或語音)”。通過測量不同編碼算法在同一組“標(biāo)準(zhǔn)圖像”上的性能來評價各壓縮算法的編碼效率。第18頁,共26頁,2023年,2月20日,星期一

(a)頭發(fā)部分高頻數(shù)據(jù)含量豐富,背景含低頻數(shù)據(jù),肩部亮度過渡平滑;(b)低頻區(qū)域含量適中,但物體邊緣豐富,頭巾、褲子及桌布上有極細膩的條紋;(c)高頻數(shù)據(jù)極為豐富,特別是臉部毛發(fā)部分,主要用于評價圖像編碼算法對高頻區(qū)域數(shù)據(jù)的處理性能。

(a)Lena圖像(b)Barbara圖像(c)Mandrill圖像國際上流行的三幅標(biāo)準(zhǔn)圖像第19頁,共26頁,2023年,2月20日,星期一

2.重現(xiàn)質(zhì)量重現(xiàn)質(zhì)量是指比較重現(xiàn)時的圖像、聲音信號與原始圖像、聲音之間有多少失真,這與壓縮的類型有關(guān)。壓縮方法可以分為無損壓縮和有損壓縮。無損壓縮是指壓縮和解壓縮過程中沒有損失原始圖像或聲音的信息,所以對無損系統(tǒng)不必擔(dān)心重現(xiàn)質(zhì)量。有損壓縮雖然可獲得較大的壓縮比,但壓縮比過高,還原后的圖像、聲音質(zhì)量就可能降低。圖像和聲音質(zhì)量的評估常采用客觀評估和主觀評估兩種方法。以圖像信息壓縮為例。圖像的主觀評價采用5分制,其分值在1~5分情況下的主觀評價如表2.4-1所示。

第20頁,共26頁,2023年,2月20日,星期一表2.4-1圖像主觀評價性能表

主觀評價分

質(zhì)量尺度

妨礙觀看尺度

5

非常好

絲毫看不出圖像質(zhì)量變壞

4

能看出圖像質(zhì)量變化,但不妨礙觀看

3

一般

清楚地看出圖像質(zhì)量變壞,對觀看稍有妨礙

2

對觀看有妨礙

1

非常差

非常嚴重地妨礙觀看第21頁,共26頁,2023年,2月20日,星期一

而客觀尺度通常有以下幾種:

均方誤差:

峰值信噪比:

信噪比:

第22頁,共26頁,2023年,2月20日,星期一

雖然圖像、語音的信噪比值在一定程度上反映了人類觀察者對編碼質(zhì)量的感覺,但它并不等同于編碼圖像、語音的主觀質(zhì)量。某些編碼圖像、語音,盡管其信噪比值不高,但由于其編碼誤差的分布恰使人眼、耳不易察覺圖像、語音中的誤差失真,而使圖像、語音在人視覺、聽覺看來質(zhì)量很高。而有些編碼,盡管其信噪比值很高,但由于其編碼誤差以人眼、耳很敏感的方式表現(xiàn)出來,其主觀質(zhì)量并不高,這一現(xiàn)象的著名實例是分塊圖像編碼中常見的塊效應(yīng)。第23頁,共26頁,2023年,2月20日,星期一

3.壓縮和解壓縮的速度壓縮與解壓縮的速度是兩項單獨的性能度量。有些應(yīng)用中,壓縮與解壓縮都需要實時進行,這稱為對稱壓縮,如電視會議的圖像傳輸;在有些應(yīng)用中,壓縮可以用非實時壓縮,而只要解壓縮是實時的,這種壓縮稱為非對稱壓縮,如多媒體CD-ROM的節(jié)目制作。從目前開發(fā)的壓縮技術(shù)看,一般壓縮的計算量比解壓縮要大。在靜止圖像中,壓縮速度沒有解壓縮速度要求嚴格。

第24頁,共26頁,2023年,2月20日,星期一

但對于動態(tài)視頻的壓縮與解壓縮,速度問題是至關(guān)重要的。動態(tài)視頻為保證幀間動作變化的連貫要求,必須有較高的幀速。大多數(shù)情況動態(tài)視頻至少為15幀/s,而全動態(tài)視頻則要求有25幀/s或30幀/s。因此,壓縮和解壓縮速度的快慢直接影響實時圖像通信的完成。此外,還要考慮軟件和硬件的開銷。有些數(shù)據(jù)的壓縮和解壓縮可以在標(biāo)準(zhǔn)的PC硬件上用軟件實現(xiàn),有些則因為算法太復(fù)雜或者質(zhì)量要求太高而必須采用專門的硬件。這就

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論