多媒體技術基礎與實驗教程_第1頁
多媒體技術基礎與實驗教程_第2頁
多媒體技術基礎與實驗教程_第3頁
多媒體技術基礎與實驗教程_第4頁
多媒體技術基礎與實驗教程_第5頁
已閱讀5頁,還剩38頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多媒體技術基礎與實驗教程第一頁,共四十三頁,2022年,8月28日第三章目錄3.1數字音頻基本原理

3.1.1人類聽覺特性

3.1.2數字音頻

3.1.3聲音

3.1.4語音3.2常用音頻編碼算法和標準

3.2.1音頻信號編碼基礎

3.2.2常用音頻編碼標準

3.2.3國際音頻標準化組織簡介3.3音頻文件格式

3.3.1波形格式

3.3.2MIDI格式

3.3.3MP3壓縮格式

3.3.4流式音頻格式3.4音頻處理工具Audition3.4.1功能概述

3.4.2編輯環境

3.4.3基本操作第二頁,共四十三頁,2022年,8月28日3.1數字音頻基本原理

3.1.1人類聽覺特性

聽閾與聽域

聲壓是聲音在空氣中傳播而改變了空氣原來的恒定靜壓力,導致了原有靜壓力的微小增加。聲壓級為某一點的聲壓與參考聲壓的比值取常用對數后再乘以20的值,單位是分貝,即dB,是反映聲音大小、強弱的最基本參量。聽閾(AuditoryThreshold)就是指人能聽到的最低聲壓級(SoundPowerLevel,SPL)。純音的聽閾與頻率有關:1kHz純音的聽閾約為4dB,10kHz時聽閾約為15dB,到40kHz時達到50dB左右。聽域(AudibleArea)是指人能感知的聲音的范圍,正常人耳能夠感知的頻率范圍大致是20Hz~20kHz;正常人能感知聲音的聲壓級范圍是0~128dB,這里基準聲壓級(0dBSPL)的定義是10-16W/cm2。聲強是指單位時間(1秒鐘)內聲音通過垂直于聲音傳播方向單位面積(cm2)的聲能量。

第三頁,共四十三頁,2022年,8月28日聽域—頻率曲線在“聽閾-頻率”曲線和“痛閾-頻率”曲線之間的區域就是人耳的聽覺范圍。第四頁,共四十三頁,2022年,8月28日音調

音調(Pitch)是指人耳對不同頻率聲音的一種主觀感受。人們定義一個高于聽閾40dB、頻率為1kHz的純音的音調為1000Mel,這里Mel是音調的度量單位。

響度和響度級

響度(Loudness)是人耳感受聲音強弱的主觀感覺程度,這種感覺與音強、頻率和波形都有關系,其度量單位為Sone,定義一個高于聽閾40dB、頻率為1kHz的純音的響度為1Sone。響度級(LoudnessLevel)是指某響度與基準響度相比的等級,其度量單位為Phon,定義1kHz純音的聲強級為1Phon。響度和響度級L之間滿足以下轉換關系:第五頁,共四十三頁,2022年,8月28日第六頁,共四十三頁,2022年,8月28日絕對聽覺門限

絕對聽覺門限(AbsoluteThresholdofHearing,ATH)指一個人在沒有噪聲的環境下,能夠產生聽覺,感知到一個純音信號(某各頻率點)的最小能量幅度。通常絕對聽覺門限用聲壓級表示(dB),靜音為0dB,痛閾為140dB。

絕對聽覺門限曲線橫坐標是頻率,表示人所能聽到的聲音的頻率范圍

縱坐標是聲壓級,表示所有低于門限的聲音信號人類一般聽不到

第七頁,共四十三頁,2022年,8月28日臨界頻帶

臨界頻帶(CriticalBand)是指一個純音可以被以它為中心頻率,并且具有一定頻帶寬度的連續噪聲所掩蔽,在這一頻帶內噪聲功率等于該純音的功率。這使該純音處于剛能被聽到的臨界狀態,即稱這一帶寬為臨界頻帶寬度。臨界頻帶的單位叫Bark(巴克)。

頻率<500Hz的情況下,

頻率>500Hz的情況下,第八頁,共四十三頁,2022年,8月28日臨界頻帶頻率(Hz)臨界頻帶頻率(Hz)低端高端寬度低端高端寬度0010010013200023203201100200100142320270038022003001001527003150450330040010016315037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280

25個臨界頻帶第九頁,共四十三頁,2022年,8月28日同時掩蔽

同時掩蔽(SimultaneousMasking)又稱頻域掩蔽,分為噪聲掩蔽音調(NMT)、音調掩蔽噪聲(TMN)和噪聲掩蔽噪聲(NMN)。掩蔽效應是指當兩個響度不等的聲音作用于人耳時,響度較高的頻率成分的存在會影響到對響度較低的頻率成分的感知。當兩個或更多的音頻信號到達人內耳時,掩蔽聲與被掩蔽聲同時作用發生掩蔽效應,就稱同時掩蔽。即在一個臨界頻帶內,一個大的信號可以掩蔽掉若干小的信號,無論這個信號是音調還是噪音。第十頁,共四十三頁,2022年,8月28日聲強為60dB、頻率為1000Hz純音的掩蔽效應聲強為60dB、頻率不同的純音的掩蔽效應第十一頁,共四十三頁,2022年,8月28日異時掩蔽

異時掩蔽(NonsimultaneousMasking)又稱時域掩蔽,是指掩蔽效應發生在掩蔽聲與被掩蔽聲不同時出現的情況下。此時出現的一個強音頻信號可以掩蔽到之前若干時間和之后若干時間的音頻信號的感知,即導前掩蔽或滯后掩蔽。而對之前音頻信號的掩蔽效應衰減的很快,大概只能掩蔽到幾毫秒,而對之后音頻信號的掩蔽可以持續到最長200ms的時間。時域掩蔽第十二頁,共四十三頁,2022年,8月28日感知熵

感知熵(PerceptualEntropy)是指利用心理聲學的掩蔽現象和信號能量化原理來測量音頻信號中感知相關的信息。一般以位(bit)作為單位,實際上表示了音頻信號壓縮的理論極限。感知熵的計算原理是:

1)對原始信號加2048點漢明窗,然后進行2048點的快速傅立葉變換,將時域音頻信號轉換成頻域信號。

2)通過臨界頻帶分析得到掩蔽閾值,然后對信號進行噪音類和純音類判決,最后將絕對聽閾考慮進來。

第十三頁,共四十三頁,2022年,8月28日3.1.2數字音頻音頻信號是時間和幅度都連續變化的一維模擬信號,要想在計算機中對它進行處理,就要將它變成時間和幅度都是離散的數字信號,所以數字音頻是指音頻信號經過離散化處理后再用一系列的數字來表示的信號,其特點是保真度好,動態范圍大。數字音頻可分為波形聲音、語音和音樂。波形聲音實際上包含了所有的聲音形式,因此數字音頻有時也泛稱為聲音。用計算機來處理音頻信號必須將模擬音頻信號轉換成有限個數字表示的離散序列,其間要經歷:選擇采樣頻率,即進行采樣;選擇分辨率,即進行量化;最后編碼形成聲音文件。聲音的采樣與量化第十四頁,共四十三頁,2022年,8月28日采樣

采樣(Sampling)是把模擬信號在時間域上以固定的時間間隔對波形的值進行抽取,再用若干位二進制數表示。兩個取樣點之間的間隔稱為采樣周期,它的倒數稱為采樣頻率。根據采樣定理,當采樣頻率大于信號最高頻率的兩倍時,在采樣過程中就不會丟失信息,并且可以用采樣后的信號重構原始信號,就能不失真地還原出原始的聲音信號。若超過此取樣頻率,就會包含冗余的信息;若低于此頻率,則將產生不同程度的失真。對于音頻,最常用的采樣頻率有三種:44.1KHz、22.05KHz、11.025KHz,其中44.1KHz采樣頻率是最常用的頻率。聲道數是聲音通道的個數,指一次采樣的聲音波形個數。單聲道一次采樣一個聲音波形,雙聲道一次采樣兩個聲音波形,又稱為“立體聲”。

第十五頁,共四十三頁,2022年,8月28日量化

量化(Quantity)的目的是將采樣后的信號波形的幅度值(樣本)進行離散化處理,樣本從模擬量轉化成了數字量。量化位數越多,所得到的量化值越接近原始波形的采樣值。一個量化器就是將整個信號的幅度值分成若干個有限的區間,并且把落入同一個區間的樣本點都用同一個幅度值來表示,這個幅度值稱為量化值。量化方式有三種:零記憶量化、分組量化和序列量化。零記憶量化是每次量化一個模擬采樣值,并對所有采樣點都使用相同的量化器特性;分組量化是從可能輸出組的離散集合中選出一組輸出值,代表一組輸入的模擬采樣值;序列量化是在分組或非分組的基礎上,用一些鄰近采樣點的信息對采樣序列進行量化。第十六頁,共四十三頁,2022年,8月28日3.1.3聲音聲學是研究聲音的學科,包括聲波的產生、傳播和接收。物體振動在彈性體里的傳播叫做波,而在空氣中傳播的波就叫做聲波,能被人的聽覺器官所感覺到的聲波叫聲音,其頻率一般在20Hz~20KHz之間。聲音的傳播是將本地振動向一個接一個的區域傳播的過程,因此聲音是縱向傳播的。聲音振動所產生壓力的改變可以是周期性的,也可以是非周期性的。一系列周期性的振動是一個周期,每秒經過一個固定點的振動周期的次數就是聲波的頻率,用Hz表示,人類聽力的大致范圍是20Hz~20KHz,因此音頻設備的響應設計也是在這個頻率范圍內。聲音的三要素是音調、音色和音強。就聽覺特性而言,聲音質量的高低主要取決于這三要素。音強是指聲音的強度,也稱為聲音的響度。音強與聲波的振幅成正比,振幅越大,強度越大。聲音的質量簡稱音質。音質的好壞與音色和頻率范圍有關。另外影響音質的因素還有:

1)與采樣頻率有關。

2)與音頻處理設備有關。

3)與信號噪聲比有關。

第十七頁,共四十三頁,2022年,8月28日3.1.4語音語音是一種特殊的媒體,但也是一種波形,在計算機中表示方式與波形聲音的文件格式相同。語音處理的研究已經有一百多年的歷史。其研究范圍主要涉及:語音編碼、語音合成、語音識別的基本算法和應用。說話的意向及概念語言語音知覺語義情感壓縮、存儲讀取、解壓語音合成語音編/解碼語音識別計算機處理語音過程第十八頁,共四十三頁,2022年,8月28日3.2常用音頻編碼算法和標準

在音頻編碼技術三十余年的發展過程中,國際電報電話咨詢委員會(CCITT)和國際標準化組織(ISO)先后提出了一系列有關音頻編碼的建議:

第十九頁,共四十三頁,2022年,8月28日方法算法名稱數據率標準應用質量波形編碼PCM均勻量化

公共網ISDN配音4.0~4.5μ(A)μ(A)64kbpsG.711APCM自適應量化

DPCM差值量化ADPCM自適應差值量化32kbpsG.721SB—

ADPCM子帶—自適應差值量化64kbpsG.7225.3kbps6.3kbpsG.723參數編碼LPC線性預測編碼2.4kbps

保密話聲2.5~3.5混合編碼CELPC碼激勵LPC4.6kbps

移動通信3.7~4.0VSELP矢量和激勵LPC8kbps

語音通信RPE-LTP長時預測規則碼激勵13.2kbps

ISDNLD-CELP低延時碼激勵LPC16kbpsG.728G.729

MPEG多自帶感知編碼128kbps

CD5.0

AC-3感知編碼

音響5.0第二十頁,共四十三頁,2022年,8月28日3.2.1音頻信號編碼基礎數據壓縮條件

信號之所以能被壓縮和編碼,其原因主要是:

數據冗余度:音頻信號通常存在很多用處不大的空間,空間越多,數據的冗余度也越大。通過數據的壓縮,將這些不用的空間去掉。人類不敏感因素:一般而言,人類對某些頻率的音頻信號不敏感,有無這些頻率的音頻,在聽覺上影響不大,在數據壓縮時,就可去掉這些不敏感的成分,以便減少數據量。信息傳輸與存儲:信息承載在數據上進行傳輸和存儲,在傳輸和存儲前后需要對數據進行壓縮處理,其原理如下圖所示。有損壓縮無損壓縮數據解壓縮數據解壓縮數據存儲數據傳輸第二十一頁,共四十三頁,2022年,8月28日數據冗余

冗余是指信息所具有的各種性質中多余的無用空間,其多余的程度叫做冗余度。信息量、數據量和冗余量之間的關系如下:

其中,表示信息量表示數據量表示冗余量,冗余量應在數據存儲和傳輸之前去掉。

冗余大致可分為:空間冗余、時間冗余、統計冗余、結構冗余、信息熵冗余、知識冗余等

第二十二頁,共四十三頁,2022年,8月28日數據壓縮算法分類

數據壓縮算法可根據解碼后的數據與壓縮前的原始數據是否完全一致分為“無損壓縮編碼”和“有損壓縮編碼”兩大類。第二十三頁,共四十三頁,2022年,8月28日第二十四頁,共四十三頁,2022年,8月28日3.2.2常用音頻編碼標準G.71164kb/s脈沖編碼調制(PCM)

G.721、G.723自適應差分脈碼調制(ADPCM)G.7227kHz聲音編碼器

G.72816kb/s低延遲碼激勵線性預測編碼(LD-CELP)

MPEG1的音頻編碼

AC音頻編碼

第二十五頁,共四十三頁,2022年,8月28日

G.71164kb/s脈沖編碼調制(PCM)

1972年,CCITT對一個64kb/s壓擴型PCM編碼器做了標準化,稱為G.711。事實上,已經有兩個標準。在北美和日本,使用μ律PCM。世界其他國家使用A律PCM。兩種編碼器的信號都用8位表示。有效信噪比大約為35dB,能夠把它們看成浮點表示值。

A律PCM對小信號有較大的分辨力,其動態范圍等效于12位線性PCM。

μ律PCM等效于13位線性PCM,但是,對于小信號有更多的粒狀噪聲。兩種編碼器在總體性能上是等效的。很重要的一點是:當這兩種編碼器級聯時,可以考慮為省去了最低有效位,而降低為56kb/s的比特率。第二十六頁,共四十三頁,2022年,8月28日

G.721、G.723自適應差分脈碼調制(ADPCM)

1984年,CCITT首先對32kbit/s自適應差分脈碼調制(ADPCM)做了標準化,稱為G.721。它為兩個目的服務:

第一,用于數字倍增器(DCME)上,能夠使系統容量有2:1的增加;第二,在有些線路上,經常會遇到一端為μ律而另一端為A律的情況,G.721是為接收μ律或A律的任一種作為輸入而建立的。

G.723是在1988年標準化的。它試圖為DCME提供應用,而且,是在ADPCM的基礎上,對兩種附加速率24kb/s和40kb/s進一步標準化。

G.721是32kb/sADPCM,已經被選中作為歐洲數字無繩電話(DECT)和無繩電話II(CT2)的標準。

第二十七頁,共四十三頁,2022年,8月28日

G.7227kHz聲音編碼器

G.722建議的音頻壓縮仍采用波形編碼技術,為7kHz寬帶編碼器,主要用于電話會議和可視電話會議。人們試圖找到比電話(200~3200Hz)更大的帶寬,以減少使用者的疲勞。較大的帶寬增加了語音的可懂度,因為在使用電話帶寬的情況下,有些語音不易區分。這種編碼器是基于兩個子帶的編碼組合。一個24抽頭鏡面正交濾波器,用于有效地分開信號,上頻帶使用16kb/sADPCM,類似如G.727編碼器。下頻帶使用48kb/sADPCM編碼,具有4和5個量化器嵌入到6位量化器。第二十八頁,共四十三頁,2022年,8月28日

G.72816kb/s低延遲碼激勵線性預測編碼(LD-CELP)

G.728的工作進程是從1988年由CCITT開始的。它試圖建立通用的16kb/s長話質量的語音編碼標準。長話質量意味著它能匹配或超過G.72132kb/sADPCM的性能;通用則表示任何地方都能夠使用,所以引入了低延遲的要求。后來,CCITT限制它不能用在主干線的連接上,能夠用在點到點的終端設備和電路倍增設備中。G.728的第一項應用是低比特率的視頻電話,由于它能使用幀擦除,故也能夠用在有衰減的無線電通道上。

G.728開始是按照浮點CELP編碼算法規定的,故要求嚴格的按照建議中規定的算法實現。為了驗證是否已經正確實現,建立了一組試驗矢量。后來,按照嚴格定點規定的算法也在1994年完成了。

第二十九頁,共四十三頁,2022年,8月28日

MPEG1的音頻編碼

國際標準化組織/國際電工委員會所屬的WG11工作組制定推薦了MPEG標準。已公布和正在討論的標準有MPEG1、MPEG2、MPEG4、MPEG7。這里僅介紹MPEG1標準的一部分,對應于ISO/IEC11172-3(MPEG-音頻)。這部分規定了高質量音頻編碼方法、存儲表示和解碼方法。編碼器的輸入和解碼器的輸出與現存的PCM標準兼容。ISO/IEC11172視頻、音頻的總比特率為1.5Mb/s。音頻使用的采樣率為32kHz、44.1kHz和48kHz。

編碼輸出的比特率有許多種,由相關的參數決定:

(1)編碼器(2)編碼層次(3)存儲(4)解碼第三十頁,共四十三頁,2022年,8月28日

AC音頻編碼

AC-1應用的編碼技術是自適應增量調制,它把20kHz的寬帶立體聲音頻信號編碼成512kb/s的數據流。AC-1曾在衛星電視和調頻廣播上得到廣泛應用。

1990年DOLBY實驗室推出了立體聲編碼標準AC-2,它采用類似MDCT的重疊窗口的快速傅立葉變換編碼技術,其比特率在256kb/s以下。AC-2被應用在PC聲卡和綜合業務數字網等方面。

AC-3音頻編碼標準的起源是DOLBYAC-1。

第三十一頁,共四十三頁,2022年,8月28日3.2.3國際音頻標準化組織簡介

國際電信聯盟(ITU)北美的標準化組織歐洲電信標準研究所日本的RCR中國的電信標準化組織

第三十二頁,共四十三頁,2022年,8月28日3.3音頻文件格式3.3.1波形格式

WAV是MicrosoftWindows本身提供的音頻格式,用.wav作為擴展名,其文件格式稱為波形文件格式(WAVEFileFormat)。在Windows環境下,大部分多媒體文件都遵循RIFF結構來存放信息,RIFF可以看做是一種樹狀結構,其基本構成單位為Chunk,就像樹形結構中的節點,每個Chunk由辨別碼、數據長度及數據組成。

RIFF的簡化結構圖第三十三頁,共四十三頁,2022年,8月28日3.3.2MIDI格式

MIDI是MusicalInstrumentDigitalInterface的首寫字母組合詞,可譯成“電子樂器數字接口”。用于在音樂合成器(MusicSynthesizers)、樂器(MusicalInstruments)和計算機之間交換音樂信息、播放和錄制音樂的一種標準協議。MIDI標準確定了將計算機與電聲樂器、錄音設備連接起來所需的電纜線、硬件及通信協議。

MIDI標準的優點:

生成的文件比較小,因為MIDI文件存儲的是命令,而不是聲音波形。容易編輯,因為編輯命令比編輯聲音波形要容易得多。可以作背景音樂,因為MIDI音樂可以和其它的媒體,如數字電視、圖形、動畫、話音等一起播放,這樣可以加強演示效果。

第三十四頁,共四十三頁,2022年,8月28日

產生MIDI樂音的方法很多,現在用得較多的方法有兩種。

一種是(SynthesisFrequencyModulation,FM)合成法。FM發聲器的原理是先對音色本質進行研究計算之后再通過人工方式“模擬”(或合成)其頻率,使用調變波去調變載波,最終獲得不同的音色表現。

FM聲音合成器的基本原理第三十五頁,共四十三頁,2022年,8月28日

另一種是樂音樣本合成法,也稱為波形表(Wavetable)合成法。

樂音樣本合成器的工作原理第三十六頁,共四十三頁,2022年,8月28日

MIDI通信形式,是將電子樂器連接起來的一種手段,它是控制樂器所用的軟件和硬件的規范。大多數電子樂器內部都有與計算機類似的用于控制的微處理器。

MIDI在各種設備之間傳送消息。當在一個MIDI設備上演奏時,其內部的微處理器將樂曲的詳細信息包括演奏的音符,節奏的變化等發送出去,另外的MIDI設備接收這些消息并做出相應的反應。在每個MIDI樂器中使用三個連接器,一個向外發送數據,一個接收數據,另一個將收到的數據傳送給其他MIDI設備。

MIDI消息有兩種類型:狀態字節和數字字節。狀態字節描述發送的信息類別,數字字節總是跟在狀態字節后面,表示動作的實際值。

第三十七頁,共四十三頁,2022年,8月28日

所有MIDI消息通過通道發送和接收。通道上能夠傳送不同樂器的聲音,音序器能夠讓不同的樂器演奏不同的聲部。

MIDI通道樂器MIDI通道樂器MIDI通道樂器MIDI通道樂器1Piano5Cellos9Harp13Bassoon2Harp6Violas10Trombone14Clarinet3Percussion7ViolinI11Trumpet15Oboe4Basses8ViolinII12French.Horn16Flute

MIDI用狀態字節中的低4位表示緊隨其后的數據所在的通道。4位可表示0~15這16個值,所以MIDI有16個可用通道。

第三十八頁,共四十三頁,2022年,8月28日3.3.3MP3壓縮格式

MP3是Fraunhofer-IIS研究所()的研究成果,它的全稱是MPEG1Layer3音頻文件,是MPEG1標準中的聲音部分,也叫MPEG音頻層。它根據壓縮質量和編碼復雜程度劃分為三層,即Layer1、Layer2、Layer3,分別對應MP1、MP2、MP3這三種聲音文件。

MP3對音頻信號采用的是有損壓縮方式,為了降低聲音失真度,MP3采取了“感知音頻編碼技術”,即編碼時先對音頻文件進行頻譜分析,然后用過濾器濾掉噪音電平,接著通過量化的方式將剩下的每一位打散排列,最后形成具有較高壓縮比的MP3文件,并使壓縮后的文件在回放時能夠達到比較接近原始音頻數據的聲音效果。

第三十九頁,共四十三頁,2022年,8月28

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論