數據音頻技術課件_第1頁
數據音頻技術課件_第2頁
數據音頻技術課件_第3頁
數據音頻技術課件_第4頁
數據音頻技術課件_第5頁
已閱讀5頁,還剩113頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多媒體技術與應用第3章數據壓縮技術第4章數據存儲技術第5章數字音頻技術第6章數字圖形圖像技術第7章數字視頻技術第8章網絡多媒體技術第9章多媒體操作系統多媒體技術與應用第3章數據壓縮技術第5章數據音頻技術聲音是多媒體技術研究中的一個重要內容。聲音的種類繁多,如人的話音、樂器的聲響、動物的叫聲、機器產生的聲音以及自然界的雷聲、風聲、雨聲、閃電聲等。在用計算機處理這些聲音時,既要考慮它們的共性,又要利用它們各自的特性。自從1969年Bell實驗室開始數字語音的研究以來,計算機產生音樂以及語音識別、語音合成技術得到了越來越廣泛的研究和應用。多媒體數字音頻處理技術在音頻數字化、語音處理、合成及識別等各個方面都有著很好的發展。第5章數據音頻技術聲音是多媒體技術研究中的一個重要內容。5.1聲音與聲音信號數字化作為一種模擬信號,聲音在時間和振幅上都是連續的,即它的振幅能以任意精度并在任何一個時刻進行測量。與之不同的是,數字信號只能在確定的時刻才有意義,其數值也只能取有限的量。5.1聲音與聲音信號數字化作為一種模擬信號,聲音在時間和5.1.1聲音與聽覺器官聲音的強弱表現在聲波壓力的大小上,音調的高低表現在聲音的頻率上。當聲音用電信號表示時,在時間和幅度上都是連續的模擬信號。對聲音信號的分析表明,聲音信號由許多頻率不同的信號組成,這類信號稱為復合信號,而單一頻率的信號稱為分量信號。聲音信號的一個重要參數就是帶寬,用來描述組成復合信號的頻率范圍,如高保真聲音的頻率范圍為10~20000Hz,帶寬約為20kHz,而視頻信號的帶寬是6MHz。5.1.1聲音與聽覺器官聲音的強弱表現在聲波壓力的大小上5.1.1聲音與聽覺器官聲音信號的兩個基本參數是頻率和幅度。信號的頻率是指信號每秒鐘變化的次數,用Hz表示。頻率小于20Hz的信號稱為亞音信號,或稱為次音信號;頻率范圍為20Hz~20kHz的信號稱為音頻(Audio)信號。雖然人的發音器官發出的聲音頻率大約是80~3400Hz,但人說話的信號頻率通常為300~3000Hz,在這種頻率范圍的信號稱為話音信號;高于20kHz的信號稱為超音頻信號,或稱超聲波信號。一般來說,人的聽覺器官能感知的聲音頻率大約在20~20000Hz之間,在這種頻率范圍里感知的聲音幅度大約在0~120db之間。多媒體技術中處理的主要是音頻信號,包括音樂、語音和音效(風雨聲、鳥叫聲、機器聲)等。5.1.1聲音與聽覺器官聲音信號的兩個基本參數是頻率和幅5.1.2模擬信號與數字信號大多數電信號(模擬信號)過去一直是用模擬元部件(如晶體管、變壓器、電阻、電容等)進行處理的。但是,開發一個具有相當精度、且幾乎不受環境變化影響的模擬信號處理元部件相當困難,成本也很高。話音信號是典型的連續信號,不僅在時間上,而且在幅度上也是連續的。時間上“連續”是指在一個指定的時間范圍內聲音信號的幅值有無窮多個,在幅度上“連續”是指幅度的數值有無窮多個。我們把在時間和幅度上都是連續的信號稱為模擬信號。5.1.2模擬信號與數字信號大多數電信號(模擬信號)過去5.1.2模擬信號與數字信號如果把模擬信號轉變成數字信號,用數字來表示模擬量和對數字信號做計算,那么開發模擬運算部件的問題就轉變成了開發數字運算部件的問題,這就出現了數字信號處理器(digitalsignalprocessor,DSP)。DSP與通用微處理器相比,除了結構不同外,它們的基本差別是,DSP有能力響應和處理采樣模擬信號得到的數據流,如做乘法和累加求和運算等。5.1.2模擬信號與數字信號如果把模擬信號轉變成數字信號5.1.2模擬信號與數字信號在數字環境進行信號處理的主要優點是:首先,數字信號計算是一種精確的運算方法,它不受時間和環境變化的影響;其次,表示部件功能的數學運算不是物理上實現的功能部件,而僅僅是用數學運算來模擬,相對容易實現;此外,可以對數字運算部件進行編程,如欲改變算法或改變某些功能,還可對數字部件進行再編程。5.1.2模擬信號與數字信號在數字環境進行信號處理的主要5.1.3聲音信號數字化計算機要處理或合成聲音,就必須把模擬的(連續的)聲音波形轉換成數字(離散化),這個過程稱為聲音采樣(圖5-1),它是把連續的聲波信號通過一種稱為模數(A/D)轉換器的部件轉換成數字信號,供計算機處理,如果需要的話,這種轉換后的數字信號又可以通過數模轉換(D/A)器,經過放大輸出,變成人耳能夠聽到的聲音。5.1.3聲音信號數字化計算機要處理或合成聲音,就必須把圖5-1聲音信號數字化的過程圖5-1聲音信號數字化的過程5.1.3聲音信號數字化連續時間的離散化通過采樣來實現,就是每隔相等的一小段時間采樣一次,這種采樣稱為均勻采樣;連續幅度的離散化通過量化來實現,就是把信號的強度劃分成一小段一小段,如果幅度的劃分是等間隔的,就稱為線性量化,否則就稱為非線性量化。圖5-2表示了聲音數字化的概念。5.1.3聲音信號數字化連續時間的離散化通過采樣來實現,圖5-2聲音的采樣和量化圖5-2聲音的采樣和量化5.1.3聲音信號數字化我們把時間和幅度都用離散的數字表示的信號稱為數字信號。聲音數字化需要回答兩個問題:①每秒鐘采集多少個聲音樣本,也就是采樣頻率是多少;②每個聲音樣本的位數(bitpersample,bps)應該是多少,也就是量化精度。采樣的速度決定了錄制聲音的準確性,而采樣值的精度則決定了錄制聲音的精確性。實踐證明,采樣速度越快,采樣值越準確,聲音特征復原得就會越好。5.1.3聲音信號數字化我們把時間和幅度都用離散的數字表5.1.3聲音信號數字化常用的幾種音頻信號數字化的采樣率標準是:44.2kHz(CD音質)、22.05kHz(FM音質)、11.025kHz(AM音質)等。為了追求音響品質的完美,減少噪聲的干擾,達到理想的傳播聲音的環境,國際上制定了一系列判斷音質的標準,圖5-3給出了幾種數字聲音質量等級的國際標準所對應的頻率范圍。5.1.3聲音信號數字化常用的幾種音頻信號數字化的采樣率圖5-3數字聲音質量等級對應的頻率范圍圖5-3數字聲音質量等級對應的頻率范圍5.1.3聲音信號數字化樣本大小是用每個聲音樣本的位數(bit/s或b/s)表示的,它反映度量聲音波形幅度的精度。例如,每個聲音樣本用16位(2字節)表示,測得的聲音樣本值是在0~65536的范圍里,它的精度就是輸入信號的1/65536。樣本位數的大小影響到聲音的質量,位數越多,聲音的質量越高,而需要的存儲空間也越多;位數越少,聲音的質量越低,需要的存儲空間越少。采樣精度的另一種表示方法是信號噪聲比。5.1.3聲音信號數字化樣本大小是用每個聲音樣本的位數(5.1.3聲音信號數字化原始的音頻數據一般需進行編輯加工才能使用。通過編輯可以實現各種聲音混合以及消除或降低聲音中的畸變等。一般的音頻編輯軟件都具有設置音量、漸強漸弱處理及多通道混合等常用功能。音頻處理主要集中在音頻壓縮上,最新的語音壓縮算法可將原始聲音數據壓縮6~8倍以上。5.1.3聲音信號數字化原始的音頻數據一般需進行編輯加工5.1.4聲音質量與數據率數字化音頻的質量取決于采樣頻率和量化位數這兩個重要參數,反映音頻數字化質量的另一個因素是通道(或聲道)個數。記錄聲音時,如果每次生成一個聲波數據,稱為單聲道;每次生成二個聲波數據,稱為立體聲(雙聲道),立體聲更能反映人的聽覺感受。音頻數字化的采樣頻率和量化級越高,結果越接近原始聲音,除此之外,數字化音頻的質量還受其他一些因素(如揚聲器的質量等)的影響。根據聲音的頻帶,通常把聲音的質量分成5個等級,由低到高分別是電話、調幅廣播(AM)、調頻廣播(FM)、光盤(CD)和數字錄音帶(digitalaudiotape,DAT)的聲音。在這5個等級中,使用的采樣頻率、樣本精度、通道數和數據率見表5-1。5.1.4聲音質量與數據率數字化音頻的質量取決于采樣頻率表5-1聲音質量和數據率表5-1聲音質量和數據率5.2音樂合成和MIDI多媒體音頻數據的一個重要來源是MIDI(樂器數字接口)。從20世紀80年代初期開始,MIDI逐步為音樂界廣泛接受和使用。MIDI是樂器和計算機使用的標準語言,是一套指令(即命令)的約定,它指示樂器(即MIDI設備)要做什么,怎么做,如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號,它傳送的是發給MIDI設備或其他裝置讓其產生聲音或執行某個動作的指令。5.2音樂合成和MIDI多媒體音頻數據的一個重要來源是M5.2音樂合成和MIDI作為數字音樂的一個國際標準,MIDI標準規定了電子樂器與計算機之間傳送數據的通信協議等規范。MIDI標準使不同廠家生產的電子合成樂器可以互相發送和接收音樂數據。隨著MIDI標準的施行,計算機成為電子合成樂器間的控制環節,出現了大量可進行記錄、存儲、編輯和播放樂譜(音符表或音符序列)的計算機軟件。MIDI音頻的處理過程如圖5-4所示,其主要優點是:1)生成的文件比較小。由于MIDI文件存儲的是命令,而不是聲音本身,因此它比較節省空間。例如,同樣半小時的立體聲音樂,MIDI文件只有200KB左右,而波形文件(WAV)則要差不多300MB。5.2音樂合成和MIDI作為數字音樂的一個國際標準,MI圖5-4MIDI音頻的處理過程圖5-4MIDI音頻的處理過程5.2音樂合成和MIDI2)容易編輯。因為編輯命令比編輯聲音波形要容易得多。3)可以作為背景音樂。MIDI音樂可以和其他的媒體,如數字電視、圖形、動畫、話音等一起播放,這樣可以加強演示效果。產生MIDI樂音的方法很多,主要有兩種:一種是頻率調制(frequencymodulation,FM)合成法,另一種是樂音樣本合成法,也稱為波形表(wavetable)合成法。5.2音樂合成和MIDI2)容易編輯。因為編輯命令比編輯5.3數碼音樂MP3MP3的全稱是MPEG-1Layer3音頻文件。MPEG-1是活動影音壓縮標準,其中的聲音部分稱為MPEG-1音頻層,它根據壓縮質量和編碼復雜度劃分為三層,即Layer1、Layer2和Layer3,分別對應MP1、MP2和MP3這3種聲音文件,并根據不同的用途,使用不同層次的編碼。MPEG音頻編碼的層次越高,對應的編碼器越復雜,壓縮率也越高,MP1和MP2的壓縮率分別為4:1和6:1~8:1,而MP3的壓縮率則高達10:1~12:1。也就是說,—分鐘CD音質的音樂,未經壓縮需要10MB的存儲空間,而經過MP3壓縮編碼后只有1MB左右。5.3數碼音樂MP3MP3的全稱是MPEG-1Laye5.3數碼音樂MP3不過MP3對音頻信號采用的是有損壓縮方式,為了降低失真度,MP3采取了“感官編碼技術”,即編碼時先對音頻文件進行頻譜分析,然后用過濾器濾掉噪音電平,再通過量化的方式將剩下的每一位打散排列,最后形成具有較高壓縮比的MP3文件,使壓縮后的文件在回放時能達到比較接近原音源的聲音效果。雖然它是一種有損壓縮方式,但它以極小的聲音失真換取了較高的壓縮比,使得MP3能夠在因特網上廣泛傳播。5.3數碼音樂MP3不過MP3對音頻信號采用的是有損壓縮5.3數碼音樂MP3MP3這種壓縮比非常高的數字音頻文件不僅能在網上傳播,而且還能容易地下載到便攜式數字音頻設備(MP3隨身聽)中。MP3隨身聽基于DSP(數字信號處理器),無需計算機支持便可以實現MP3文件的存儲、解碼和播放。事先可以將創建好的MP3文件從計算機或因特網上下載到MP3隨身聽內置的存儲器中,當從中選擇播放一首MP3歌曲時,文件數據將被傳送給DSP,通過它來對文件進行解壓縮。所需的解壓縮軟件被置入DSP處理器內部,或者存放在存儲體中。DSP將處理完的數據傳給數模轉換器,它將二進制的數碼信息轉換成模擬信號,然后再輸出到耳機或揚聲器中。5.3數碼音樂MP3MP3這種壓縮比非常高的數字音頻文件5.4語音信號與處理語音是人類溝通的主要方式,可以被人或機器來處理,后者就稱為數字語音處理。語音理解意味著要有效地適應說話人及其說話習慣,包括不同方言和情緒化的發音。語音信號有兩個重要的特點可以用在語音處理應用中:1)濁語音信號(相對于清語音)在某一個確定的時間間隔上有一個幾乎是周期性的結構,因此這種信號保持大約30ms的準穩態。2)一些聲音的頻譜具有特征最大值,通常包括多達5個頻率。這些在說話時生成的頻率最大值被稱作共振峰。根據定義,共振峰是一段語音質量的特征成分。5.4語音信號與處理語音是人類溝通的主要方式,可以被人或5.4.1語音輸出語音輸出涉及到機器如何生成語音的問題,在這方面的主要挑戰是,如何使得語音輸出系統能夠實時地生成語音信號,例如,自動地把文字轉化為語音。某些應用(如語音報時)采用有限的詞匯表來處理這一任務,但大多數采用的是廣泛的詞匯表。機器輸出的語音必須是可以聽懂的,而且應該聽起來很自然。其中可懂性是強制而自然的事情,可以增加用戶的接受度。5.4.1語音輸出語音輸出涉及到機器如何生成語音的問題,5.4.1語音輸出與語音輸出相關的幾個重要術語是:1)語音基本頻率,是語音信號中最低周期信號部分。它體現在嗓音中。2)音素,是最小的語音單位之一,用于區分語言或方言中的兩個發音。它是最小的有意義的語言學單位,但并不攜帶內容。3)音位變體,確定了作為語音環境的函數的音素變化。4)詞素,是有意義的語音學單位,在自由或受限的形式中都包含的最小且有意義的部分。5)嗓音,由聲帶的振動產生。嗓音強烈地依賴于說話者。6)非嗓音,由聲帶張開產生,這些聲音相對獨立于說話者。5.4.1語音輸出與語音輸出相關的幾個重要術語是:5.4.2語音合成音頻技術的一個重要方面是語音合成,即將普通正文合成為語音。如圖5-5所示。5.4.2語音合成音頻技術的一個重要方面是語音合成,即將圖5-5使用時間域聲音連接的語音合成系統圖5-5使用時間域聲音連接的語音合成系統5.4.2語音合成第一步涉及到轉錄,或將文本翻譯成相應的音標。大部分方法使用一個包含大量單詞或僅僅是音節或音調組的詞典。這樣的詞典創建非常復雜,可以是單獨實現的或是幾個人使用的普通詞典,其質量可通過相互作用的用戶干預而不斷提高。這意味著由用戶識別出轉換公式的缺陷,人工地改進發音,他們的發現逐漸成為詞典的一個集成部分。第二步將音素記錄轉換成聲學的語音信號,其中連接可以發生在時域或頻域。通常第一步用軟件來解決,第二步則涉及信號處理器或專門的處理器。5.4.2語音合成第一步涉及到轉錄,或將文本翻譯成相應的5.4.2語音合成除了副發音和韻律產生的問題外,語音識別還必須注意發音模糊問題。解決這個問題的惟一方式就是提供有關上下文的附加信息。5.4.2語音合成除了副發音和韻律產生的問題外,語音識別5.4.3語音輸入與識別在語音輸入處理的各種應用中,需要正確回答3個問題,即:1)誰?語音輸入依賴說話者的某種特性,這意味著語音輸入能識別出說話者。計算機可用于識別說話者的聲音指紋。2)什么?語音輸入的關鍵是檢測語音內容本身。通常輸入的語音序列產生一塊文本。典型的應用有語言翻譯系統。3)怎么樣?第三個問題有關如何研究語音采樣。其典型應用如測謊儀。音頻技術中難度最大、也最具應用前景的當屬語音識別,其潛在的商業應用前景使之一直是音頻技術研究關注的熱點。語音識別和語音合成相結合,實現了媒體轉換。5.4.3語音輸入與識別在語音輸入處理的各種應用中,需要5.4.3語音輸入與識別語音識別一般是通過各種比較來完成的。利用現有技術,可以實現一個包含有大約25000詞匯的依賴于講話者的識別系統。語音識別中影響識別質量的問題主要是方言、情緒化的發音以及環境噪聲等。要改善語音識別和語音生成的質量,需要彌合人類大腦與高性能計算機之間的相當大的性能差異,這仍需要一定的時間。5.4.3語音輸入與識別語音識別一般是通過各種比較來完成5.4.3語音輸入與識別語音識別的原理如圖5-6所示,是將個人發音的特殊特征和由以前抽取的語音元素組成的句子做比較。這意味著這些特征通常被量化,用于被研究的語音序列。這—結果與現有的參考做比較,以將它定位于現有的語言單元之一。識別出的言詞作為參數化的語言單元序列被存儲,傳輸或處理。5.4.3語音輸入與識別語音識別的原理如圖5-6所示,是圖5-6語音識別原理圖5-6語音識別原理5.4.3語音輸入與識別具體操作通常使用專門的元件或信號處理器抽取特征信息。比較和決定一般由系統的主處理器處理,但具有參考特征的詞典通常位于計算機的二級存儲單元。大多數具體的實現方法在如何定義特征信息時會有所不同。如圖5-7所示。5.4.3語音輸入與識別具體操作通常使用專門的元件或信號圖5-7語音識別組成部分圖5-7語音識別組成部分5.4.3語音輸入與識別語音輸入中的一個特殊問題是房間的聲學特性,即環境噪聲,此外,必須定義字邊界,但這并不容易做到,因為大多數人說話并不強調一個字的開始和結束,同一個字也可以被說得有快有慢。依賴于特定人的識別系統比獨立于講話者的系統能識別更多的字,但這是以提前“訓練”系統為代價的。為訓練系統使之適應說話者,通常要求他讀特定的語音序列。目前的語音識別系統有大約半個小時的訓練時間。大多數依賴說話者的系統能識別出25000個字或者更多,而獨立于說話者的系統則命中率接近l000個字。注意,現實的系統評估還應包括環境因素。5.4.3語音輸入與識別語音輸入中的一個特殊問題是房間的5.5聲音文件的存儲格式在因特網和各種計算機上使用的聲音文件格式很多,但比較流行的主要是WAV、AU(audio)、AIFF(audiointerchangeablefileformat)和SND(sound)文件格式。WAV格式用于PC機,AU用于Unix工作站,AIFF和SND用于蘋果機和SGI工作站。為便于讀者辨認文件的屬性,表5-2列出了部分聲音文件的后綴。5.5聲音文件的存儲格式在因特網和各種計算機上使用的聲音表5-2常見的聲音文件擴展名表5-2常見的聲音文件擴展名5.6聲卡在多媒體計算機中,所有的音樂與音效都需要經過聲卡來處理。聲卡使用大規模集成電路技術,將音頻技術范圍的各類電路制成芯片而組成,以便直接插入計算機的擴展槽里,使用方便。聲卡的主要工作就是把數字信號轉換成模擬信號,然后送到喇叭上發出聲音;另一方面,聲卡也可以對計算機上的各種音頻進行“混音”,例如串聯電子合成樂器,或是從麥克風輸入聲音后與CD音樂一起由喇叭放出來等。5.6聲卡在多媒體計算機中,所有的音樂與音效都需要經5.6聲卡聲卡通過反復地檢測和記錄聲音信號的幅度來實現稱為“采樣”(實際上每秒種要做幾萬次這樣的操作)的錄音過程,將聲音信號轉化為大量的幅度隨時間變化的數字,并存儲在磁盤上。播放聲音的過程與錄音正好相反,計算機將一串數字傳給聲卡,聲卡將它們轉換成模擬信號,根據數字量的大小改變模擬信號的幅度,經放大后由音箱播出。5.6聲卡聲卡通過反復地檢測和記錄聲音信號的幅度來實5.6.1 主要技術指標評價聲卡的主要技術指標是:1)采樣頻率:為記錄信號的精確細節,聲卡必須以極快的速率進行采樣。聲卡的采樣頻率通常有三個標準:11.025kHz、22.05kHz和44.1kHz,目前一般的聲卡都能達到44.1kHz的采樣頻率。2)采樣位數(量化位數):另一個影響聲音質量的重要因素是每個采樣點幅度的準確性。采樣位數越多,聲音的幅度就會越精確,但占用的存儲空間也就越多。目前通常使用的有8位(低檔)、16位(中檔)和32位(高檔)3種量化精度的聲卡。3)聲道數:分單聲道和雙聲道,雙聲道可以播放立體聲信號。一般的聲卡都是雙聲道的。5.6.1 主要技術指標評價聲卡的主要技術指標是:5.6.1 主要技術指標4)MIDI(數字化樂器接口)和游戲桿接口:該接口能夠利用計算機控制和演奏電子樂器,或利用諸如Windows提供的實用程序記錄電子樂器演奏的音樂,然后進行回放。游戲桿接口用來與游戲操縱桿相接,在聲卡上一般與MIDI接口共享。5)合成器:音色是區別不同樂器的重要特征之一,聲卡上的合成器能將各種不同頻率的聲音混合起來,形成某種特定樂器的音色。例如安裝在計算機上的控制軟件對于同一組電子琴樂曲,可以同時選擇小號演奏效果和鋼琴演奏效果。合成器的主要參數是合成的復音數和用語音合成的操作數目。一般有20種復音就可以滿足大多數用戶的需要了,復音成分越多越適合于專業音樂工作者。5.6.1 主要技術指標4)MIDI(數字化樂器接口)和5.6.1 主要技術指標6)內部聲音混合調節器:主要功能是將來自不同輸入源的聲音信號進行混合和音量調節。該混合器可以編程和控制。7)CD-ROM接口:若用戶需要使用CD-ROM來播放CD、VCD節目,應將聲卡上的CD-ROM接口和CD-ROM上的聲卡接口用專用的三芯電纜連接起來。連接時應注意各接口的規格,因為不同的CD-ROM聲卡接口標準可能略有不同。5.6.1 主要技術指標6)內部聲音混合調節器:主要功能5.6.2功能和分類聲卡的心臟是音效芯片,它有多個音頻接口,通過音頻線和光驅或其他的音頻輸入相連。一般聲卡上都有CD-ROM接口,在聲卡的檔板上,可以看見一排輸出/入端子及游戲桿連接口。聲卡的主要功能包括錄音、編輯和回放數字音頻文件;控制各聲源的音量并加以混合;在記錄和回放數字音頻文件時進行壓縮和解壓縮;采用語音合成技術讓計算機朗讀文本;具有初步的語音識別功能;具有MIDI接口、輸出功率放大等。5.6.2功能和分類聲卡的心臟是音效芯片,它有多個音頻接5.6.2功能和分類聲卡主要根據其數據采樣量位數來確定其分類,通常分為8位、16位和32位等。位數越大,其量化精度越高,音質就越好。聲卡通常帶有自己的CPU,具有較高的智能性和靈活性。聲卡的關鍵技術包括數字音頻、音樂合成、MIDI與音效。數字音頻部分具有的基本功能有44.1kHz的采樣率,8位以上的分辨率,錄音和播放聲音信號,同時具有壓縮采樣信號的能力。最常用的壓縮方法是自適應脈沖編碼調制。數字音頻的實現有不同的方法和芯片,大多數采用的是CODEC芯片,它具有硬件壓縮功能,部分采用的是DSP+ADC方法,利用軟件方法壓縮數字音頻信號。5.6.2功能和分類聲卡主要根據其數據采樣量位數來確定其5.6.2功能和分類聲卡上的音樂合成器也有許多不同的類型,目前主要采用兩種合成技術:FM與波形表。波形表合成使用了DSP技術,它要求大容量的ROM,以獲得高質量的演奏效果;通用MIDI要求支持128種樂器;不少聲卡采用音效芯片,從硬件上實現回聲、混響、和聲等,使聲卡發出的聲音更生動。5.6.2功能和分類聲卡上的音樂合成器也有許多不同的類型5.6.2功能和分類聲卡的種類很多,其功能不盡相同,但在相應軟件支持下,應具備以下大部分或全部功能:1)錄制、編輯和回放數字聲音文件。聲卡可將來自話筒、收錄音機以及激光唱盤等的聲源采樣,保存成數字文件,并由相應的軟件對聲音文件的數據進行編輯、混合或回放。2)控制、混合各聲源的音量。通常隨聲卡提供的軟件有一個Mixer程序,它顯示有多個滑鍵的控制板,用來控制和混合各聲源的音量,用鼠標可調節話筒、激光唱盤和其他音源的輸入音量,以及調節MIDI、WAV文件回放和主輸出電路音量,除話筒之外均為雙通道立體聲調節。5.6.2功能和分類聲卡的種類很多,其功能不盡相同,但在5.6.2功能和分類3)在記錄和回放數字文件時壓縮和解壓縮。在記錄和回放數字文件時進行壓縮和解壓縮可以節省存儲空間。以立體聲為例,其數字聲音文件每分鐘可占多達10MB的磁盤空間,因此,聲音文件的壓縮與解壓縮是多媒體領域研究的一個重要課題。一般聲卡的壓縮算法固化在卡上,也有的以軟件形式提供給用戶。5.6.2功能和分類3)在記錄和回放數字文件時壓縮和解壓5.6.2功能和分類4)采用語音合成技術讓電腦朗讀文本。在相應軟件的支持下,采用語音合成技術,可讓大部分聲卡朗讀英文或中文文本,用來幫助用戶檢查文章中的句法和語法錯誤,這是一般的拼寫檢查功能所無法做到的。常用的語音合成技術有兩種:一種是基于字典技術,根據單詞查到發音代碼并送到合成器上去,另一種是基于規則將文本轉換成語音。聲卡一般只能合成英文語音,國內在漢語語音識別、漢語語音合成方面做了多年的研究,已經取得了較好的成果。一般能夠利用聲卡通過軟件把漢字國標代碼置換成較自然的漢語語音,并具有語音信箱的功能,大大擴展了語音合成技術的應用范圍。5.6.2功能和分類4)采用語音合成技術讓電腦朗讀文本。5.6.2功能和分類5)具有MIDI接口。一臺計算機可以控制多臺帶MIDI接口的電子樂器,利用計算機發送MIDI信息就可以控制具有MIDI接口的樂器。如果把計算機與具有MIDI接口的電子琴、電吉他相連,它們就會在計算機的控制下發出美妙的音樂。5.6.2功能和分類5)具有MIDI接口。一臺計算機可以5.7獲取聲音素材聲音、音樂和各種音效可以豐富多媒體產品的表現能力,使多媒體產品更富有活力。獲取聲音素材的方法很多,除了購買聲效庫光盤外,還可以借助各種多媒體軟件工具來錄制和加工。1.購買聲效庫光盤市場上有很多聲效庫光碟出售,提供了各種各樣的音樂和自然語音,其中既有WAVE文件格式,也有MIDI文件格式,且聲效的質量也比較高,這是獲取音頻資料的最簡單而直接的方法,另外,還可以從網上下載所需要的聲音文件(提示:試試在Google搜索引擎中打入“音效素材”進行搜索)。5.7獲取聲音素材聲音、音樂和各種音效可以豐富多媒體產品5.7獲取聲音素材2.錄制WAVE聲音可以利用電腦聲卡來錄制聲音,并以WAVE文件格式保存。電腦可以通過麥克風錄音,也可以通過聲卡上的線路輸入端口錄下電視機、收音機、錄像機里的聲音,還可以把電腦里播放的CD、MIDI音樂和VCD影碟的配音錄制下來。3.錄制MIDI音樂利用具有樂器數字化接口的MIDI樂器(如MIDI電子鍵盤、合成器等)或具有MIDI創作功能的軟件(如Cakewalkpro),可以制作或編輯MIDI音樂,當然,這需要使用者精通音律而且能熟練演奏電子樂器。5.7獲取聲音素材2.錄制WAVE聲音5.7獲取聲音素材常用的錄音方法包括:1)使用Windows中的“錄音機”程序。2)使用聲卡自帶的錄音程序。3)使用專用的錄音軟件。很多專業錄音軟件都提供了高水準的錄制效果,并且可以對錄制的聲音進行復雜的編輯,添加各種音效特技,如對立體聲進行空間移動效果處理,使聲音漸進、漸遠、產生回聲等。4)租用數字錄音棚。這種方式不但可以大大減少環境噪音,而且可以獲得與CD相等的高保真音質。但成本比較高,而且需要能熟練操作數字錄音設備的技術人員。5.7獲取聲音素材常用的錄音方法包括:5.8實驗:SoundForge數字音頻處理5.8.1工具/準備工作5.8.2實驗內容與步驟5.8.3實驗總結5.8.4實驗評價(教師)5.8實驗:SoundForge數字音頻處理5.8.1第5章數據音頻技術-課件59多媒體技術與應用第3章數據壓縮技術第4章數據存儲技術第5章數字音頻技術第6章數字圖形圖像技術第7章數字視頻技術第8章網絡多媒體技術第9章多媒體操作系統多媒體技術與應用第3章數據壓縮技術第5章數據音頻技術聲音是多媒體技術研究中的一個重要內容。聲音的種類繁多,如人的話音、樂器的聲響、動物的叫聲、機器產生的聲音以及自然界的雷聲、風聲、雨聲、閃電聲等。在用計算機處理這些聲音時,既要考慮它們的共性,又要利用它們各自的特性。自從1969年Bell實驗室開始數字語音的研究以來,計算機產生音樂以及語音識別、語音合成技術得到了越來越廣泛的研究和應用。多媒體數字音頻處理技術在音頻數字化、語音處理、合成及識別等各個方面都有著很好的發展。第5章數據音頻技術聲音是多媒體技術研究中的一個重要內容。5.1聲音與聲音信號數字化作為一種模擬信號,聲音在時間和振幅上都是連續的,即它的振幅能以任意精度并在任何一個時刻進行測量。與之不同的是,數字信號只能在確定的時刻才有意義,其數值也只能取有限的量。5.1聲音與聲音信號數字化作為一種模擬信號,聲音在時間和5.1.1聲音與聽覺器官聲音的強弱表現在聲波壓力的大小上,音調的高低表現在聲音的頻率上。當聲音用電信號表示時,在時間和幅度上都是連續的模擬信號。對聲音信號的分析表明,聲音信號由許多頻率不同的信號組成,這類信號稱為復合信號,而單一頻率的信號稱為分量信號。聲音信號的一個重要參數就是帶寬,用來描述組成復合信號的頻率范圍,如高保真聲音的頻率范圍為10~20000Hz,帶寬約為20kHz,而視頻信號的帶寬是6MHz。5.1.1聲音與聽覺器官聲音的強弱表現在聲波壓力的大小上5.1.1聲音與聽覺器官聲音信號的兩個基本參數是頻率和幅度。信號的頻率是指信號每秒鐘變化的次數,用Hz表示。頻率小于20Hz的信號稱為亞音信號,或稱為次音信號;頻率范圍為20Hz~20kHz的信號稱為音頻(Audio)信號。雖然人的發音器官發出的聲音頻率大約是80~3400Hz,但人說話的信號頻率通常為300~3000Hz,在這種頻率范圍的信號稱為話音信號;高于20kHz的信號稱為超音頻信號,或稱超聲波信號。一般來說,人的聽覺器官能感知的聲音頻率大約在20~20000Hz之間,在這種頻率范圍里感知的聲音幅度大約在0~120db之間。多媒體技術中處理的主要是音頻信號,包括音樂、語音和音效(風雨聲、鳥叫聲、機器聲)等。5.1.1聲音與聽覺器官聲音信號的兩個基本參數是頻率和幅5.1.2模擬信號與數字信號大多數電信號(模擬信號)過去一直是用模擬元部件(如晶體管、變壓器、電阻、電容等)進行處理的。但是,開發一個具有相當精度、且幾乎不受環境變化影響的模擬信號處理元部件相當困難,成本也很高。話音信號是典型的連續信號,不僅在時間上,而且在幅度上也是連續的。時間上“連續”是指在一個指定的時間范圍內聲音信號的幅值有無窮多個,在幅度上“連續”是指幅度的數值有無窮多個。我們把在時間和幅度上都是連續的信號稱為模擬信號。5.1.2模擬信號與數字信號大多數電信號(模擬信號)過去5.1.2模擬信號與數字信號如果把模擬信號轉變成數字信號,用數字來表示模擬量和對數字信號做計算,那么開發模擬運算部件的問題就轉變成了開發數字運算部件的問題,這就出現了數字信號處理器(digitalsignalprocessor,DSP)。DSP與通用微處理器相比,除了結構不同外,它們的基本差別是,DSP有能力響應和處理采樣模擬信號得到的數據流,如做乘法和累加求和運算等。5.1.2模擬信號與數字信號如果把模擬信號轉變成數字信號5.1.2模擬信號與數字信號在數字環境進行信號處理的主要優點是:首先,數字信號計算是一種精確的運算方法,它不受時間和環境變化的影響;其次,表示部件功能的數學運算不是物理上實現的功能部件,而僅僅是用數學運算來模擬,相對容易實現;此外,可以對數字運算部件進行編程,如欲改變算法或改變某些功能,還可對數字部件進行再編程。5.1.2模擬信號與數字信號在數字環境進行信號處理的主要5.1.3聲音信號數字化計算機要處理或合成聲音,就必須把模擬的(連續的)聲音波形轉換成數字(離散化),這個過程稱為聲音采樣(圖5-1),它是把連續的聲波信號通過一種稱為模數(A/D)轉換器的部件轉換成數字信號,供計算機處理,如果需要的話,這種轉換后的數字信號又可以通過數模轉換(D/A)器,經過放大輸出,變成人耳能夠聽到的聲音。5.1.3聲音信號數字化計算機要處理或合成聲音,就必須把圖5-1聲音信號數字化的過程圖5-1聲音信號數字化的過程5.1.3聲音信號數字化連續時間的離散化通過采樣來實現,就是每隔相等的一小段時間采樣一次,這種采樣稱為均勻采樣;連續幅度的離散化通過量化來實現,就是把信號的強度劃分成一小段一小段,如果幅度的劃分是等間隔的,就稱為線性量化,否則就稱為非線性量化。圖5-2表示了聲音數字化的概念。5.1.3聲音信號數字化連續時間的離散化通過采樣來實現,圖5-2聲音的采樣和量化圖5-2聲音的采樣和量化5.1.3聲音信號數字化我們把時間和幅度都用離散的數字表示的信號稱為數字信號。聲音數字化需要回答兩個問題:①每秒鐘采集多少個聲音樣本,也就是采樣頻率是多少;②每個聲音樣本的位數(bitpersample,bps)應該是多少,也就是量化精度。采樣的速度決定了錄制聲音的準確性,而采樣值的精度則決定了錄制聲音的精確性。實踐證明,采樣速度越快,采樣值越準確,聲音特征復原得就會越好。5.1.3聲音信號數字化我們把時間和幅度都用離散的數字表5.1.3聲音信號數字化常用的幾種音頻信號數字化的采樣率標準是:44.2kHz(CD音質)、22.05kHz(FM音質)、11.025kHz(AM音質)等。為了追求音響品質的完美,減少噪聲的干擾,達到理想的傳播聲音的環境,國際上制定了一系列判斷音質的標準,圖5-3給出了幾種數字聲音質量等級的國際標準所對應的頻率范圍。5.1.3聲音信號數字化常用的幾種音頻信號數字化的采樣率圖5-3數字聲音質量等級對應的頻率范圍圖5-3數字聲音質量等級對應的頻率范圍5.1.3聲音信號數字化樣本大小是用每個聲音樣本的位數(bit/s或b/s)表示的,它反映度量聲音波形幅度的精度。例如,每個聲音樣本用16位(2字節)表示,測得的聲音樣本值是在0~65536的范圍里,它的精度就是輸入信號的1/65536。樣本位數的大小影響到聲音的質量,位數越多,聲音的質量越高,而需要的存儲空間也越多;位數越少,聲音的質量越低,需要的存儲空間越少。采樣精度的另一種表示方法是信號噪聲比。5.1.3聲音信號數字化樣本大小是用每個聲音樣本的位數(5.1.3聲音信號數字化原始的音頻數據一般需進行編輯加工才能使用。通過編輯可以實現各種聲音混合以及消除或降低聲音中的畸變等。一般的音頻編輯軟件都具有設置音量、漸強漸弱處理及多通道混合等常用功能。音頻處理主要集中在音頻壓縮上,最新的語音壓縮算法可將原始聲音數據壓縮6~8倍以上。5.1.3聲音信號數字化原始的音頻數據一般需進行編輯加工5.1.4聲音質量與數據率數字化音頻的質量取決于采樣頻率和量化位數這兩個重要參數,反映音頻數字化質量的另一個因素是通道(或聲道)個數。記錄聲音時,如果每次生成一個聲波數據,稱為單聲道;每次生成二個聲波數據,稱為立體聲(雙聲道),立體聲更能反映人的聽覺感受。音頻數字化的采樣頻率和量化級越高,結果越接近原始聲音,除此之外,數字化音頻的質量還受其他一些因素(如揚聲器的質量等)的影響。根據聲音的頻帶,通常把聲音的質量分成5個等級,由低到高分別是電話、調幅廣播(AM)、調頻廣播(FM)、光盤(CD)和數字錄音帶(digitalaudiotape,DAT)的聲音。在這5個等級中,使用的采樣頻率、樣本精度、通道數和數據率見表5-1。5.1.4聲音質量與數據率數字化音頻的質量取決于采樣頻率表5-1聲音質量和數據率表5-1聲音質量和數據率5.2音樂合成和MIDI多媒體音頻數據的一個重要來源是MIDI(樂器數字接口)。從20世紀80年代初期開始,MIDI逐步為音樂界廣泛接受和使用。MIDI是樂器和計算機使用的標準語言,是一套指令(即命令)的約定,它指示樂器(即MIDI設備)要做什么,怎么做,如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號,它傳送的是發給MIDI設備或其他裝置讓其產生聲音或執行某個動作的指令。5.2音樂合成和MIDI多媒體音頻數據的一個重要來源是M5.2音樂合成和MIDI作為數字音樂的一個國際標準,MIDI標準規定了電子樂器與計算機之間傳送數據的通信協議等規范。MIDI標準使不同廠家生產的電子合成樂器可以互相發送和接收音樂數據。隨著MIDI標準的施行,計算機成為電子合成樂器間的控制環節,出現了大量可進行記錄、存儲、編輯和播放樂譜(音符表或音符序列)的計算機軟件。MIDI音頻的處理過程如圖5-4所示,其主要優點是:1)生成的文件比較小。由于MIDI文件存儲的是命令,而不是聲音本身,因此它比較節省空間。例如,同樣半小時的立體聲音樂,MIDI文件只有200KB左右,而波形文件(WAV)則要差不多300MB。5.2音樂合成和MIDI作為數字音樂的一個國際標準,MI圖5-4MIDI音頻的處理過程圖5-4MIDI音頻的處理過程5.2音樂合成和MIDI2)容易編輯。因為編輯命令比編輯聲音波形要容易得多。3)可以作為背景音樂。MIDI音樂可以和其他的媒體,如數字電視、圖形、動畫、話音等一起播放,這樣可以加強演示效果。產生MIDI樂音的方法很多,主要有兩種:一種是頻率調制(frequencymodulation,FM)合成法,另一種是樂音樣本合成法,也稱為波形表(wavetable)合成法。5.2音樂合成和MIDI2)容易編輯。因為編輯命令比編輯5.3數碼音樂MP3MP3的全稱是MPEG-1Layer3音頻文件。MPEG-1是活動影音壓縮標準,其中的聲音部分稱為MPEG-1音頻層,它根據壓縮質量和編碼復雜度劃分為三層,即Layer1、Layer2和Layer3,分別對應MP1、MP2和MP3這3種聲音文件,并根據不同的用途,使用不同層次的編碼。MPEG音頻編碼的層次越高,對應的編碼器越復雜,壓縮率也越高,MP1和MP2的壓縮率分別為4:1和6:1~8:1,而MP3的壓縮率則高達10:1~12:1。也就是說,—分鐘CD音質的音樂,未經壓縮需要10MB的存儲空間,而經過MP3壓縮編碼后只有1MB左右。5.3數碼音樂MP3MP3的全稱是MPEG-1Laye5.3數碼音樂MP3不過MP3對音頻信號采用的是有損壓縮方式,為了降低失真度,MP3采取了“感官編碼技術”,即編碼時先對音頻文件進行頻譜分析,然后用過濾器濾掉噪音電平,再通過量化的方式將剩下的每一位打散排列,最后形成具有較高壓縮比的MP3文件,使壓縮后的文件在回放時能達到比較接近原音源的聲音效果。雖然它是一種有損壓縮方式,但它以極小的聲音失真換取了較高的壓縮比,使得MP3能夠在因特網上廣泛傳播。5.3數碼音樂MP3不過MP3對音頻信號采用的是有損壓縮5.3數碼音樂MP3MP3這種壓縮比非常高的數字音頻文件不僅能在網上傳播,而且還能容易地下載到便攜式數字音頻設備(MP3隨身聽)中。MP3隨身聽基于DSP(數字信號處理器),無需計算機支持便可以實現MP3文件的存儲、解碼和播放。事先可以將創建好的MP3文件從計算機或因特網上下載到MP3隨身聽內置的存儲器中,當從中選擇播放一首MP3歌曲時,文件數據將被傳送給DSP,通過它來對文件進行解壓縮。所需的解壓縮軟件被置入DSP處理器內部,或者存放在存儲體中。DSP將處理完的數據傳給數模轉換器,它將二進制的數碼信息轉換成模擬信號,然后再輸出到耳機或揚聲器中。5.3數碼音樂MP3MP3這種壓縮比非常高的數字音頻文件5.4語音信號與處理語音是人類溝通的主要方式,可以被人或機器來處理,后者就稱為數字語音處理。語音理解意味著要有效地適應說話人及其說話習慣,包括不同方言和情緒化的發音。語音信號有兩個重要的特點可以用在語音處理應用中:1)濁語音信號(相對于清語音)在某一個確定的時間間隔上有一個幾乎是周期性的結構,因此這種信號保持大約30ms的準穩態。2)一些聲音的頻譜具有特征最大值,通常包括多達5個頻率。這些在說話時生成的頻率最大值被稱作共振峰。根據定義,共振峰是一段語音質量的特征成分。5.4語音信號與處理語音是人類溝通的主要方式,可以被人或5.4.1語音輸出語音輸出涉及到機器如何生成語音的問題,在這方面的主要挑戰是,如何使得語音輸出系統能夠實時地生成語音信號,例如,自動地把文字轉化為語音。某些應用(如語音報時)采用有限的詞匯表來處理這一任務,但大多數采用的是廣泛的詞匯表。機器輸出的語音必須是可以聽懂的,而且應該聽起來很自然。其中可懂性是強制而自然的事情,可以增加用戶的接受度。5.4.1語音輸出語音輸出涉及到機器如何生成語音的問題,5.4.1語音輸出與語音輸出相關的幾個重要術語是:1)語音基本頻率,是語音信號中最低周期信號部分。它體現在嗓音中。2)音素,是最小的語音單位之一,用于區分語言或方言中的兩個發音。它是最小的有意義的語言學單位,但并不攜帶內容。3)音位變體,確定了作為語音環境的函數的音素變化。4)詞素,是有意義的語音學單位,在自由或受限的形式中都包含的最小且有意義的部分。5)嗓音,由聲帶的振動產生。嗓音強烈地依賴于說話者。6)非嗓音,由聲帶張開產生,這些聲音相對獨立于說話者。5.4.1語音輸出與語音輸出相關的幾個重要術語是:5.4.2語音合成音頻技術的一個重要方面是語音合成,即將普通正文合成為語音。如圖5-5所示。5.4.2語音合成音頻技術的一個重要方面是語音合成,即將圖5-5使用時間域聲音連接的語音合成系統圖5-5使用時間域聲音連接的語音合成系統5.4.2語音合成第一步涉及到轉錄,或將文本翻譯成相應的音標。大部分方法使用一個包含大量單詞或僅僅是音節或音調組的詞典。這樣的詞典創建非常復雜,可以是單獨實現的或是幾個人使用的普通詞典,其質量可通過相互作用的用戶干預而不斷提高。這意味著由用戶識別出轉換公式的缺陷,人工地改進發音,他們的發現逐漸成為詞典的一個集成部分。第二步將音素記錄轉換成聲學的語音信號,其中連接可以發生在時域或頻域。通常第一步用軟件來解決,第二步則涉及信號處理器或專門的處理器。5.4.2語音合成第一步涉及到轉錄,或將文本翻譯成相應的5.4.2語音合成除了副發音和韻律產生的問題外,語音識別還必須注意發音模糊問題。解決這個問題的惟一方式就是提供有關上下文的附加信息。5.4.2語音合成除了副發音和韻律產生的問題外,語音識別5.4.3語音輸入與識別在語音輸入處理的各種應用中,需要正確回答3個問題,即:1)誰?語音輸入依賴說話者的某種特性,這意味著語音輸入能識別出說話者。計算機可用于識別說話者的聲音指紋。2)什么?語音輸入的關鍵是檢測語音內容本身。通常輸入的語音序列產生一塊文本。典型的應用有語言翻譯系統。3)怎么樣?第三個問題有關如何研究語音采樣。其典型應用如測謊儀。音頻技術中難度最大、也最具應用前景的當屬語音識別,其潛在的商業應用前景使之一直是音頻技術研究關注的熱點。語音識別和語音合成相結合,實現了媒體轉換。5.4.3語音輸入與識別在語音輸入處理的各種應用中,需要5.4.3語音輸入與識別語音識別一般是通過各種比較來完成的。利用現有技術,可以實現一個包含有大約25000詞匯的依賴于講話者的識別系統。語音識別中影響識別質量的問題主要是方言、情緒化的發音以及環境噪聲等。要改善語音識別和語音生成的質量,需要彌合人類大腦與高性能計算機之間的相當大的性能差異,這仍需要一定的時間。5.4.3語音輸入與識別語音識別一般是通過各種比較來完成5.4.3語音輸入與識別語音識別的原理如圖5-6所示,是將個人發音的特殊特征和由以前抽取的語音元素組成的句子做比較。這意味著這些特征通常被量化,用于被研究的語音序列。這—結果與現有的參考做比較,以將它定位于現有的語言單元之一。識別出的言詞作為參數化的語言單元序列被存儲,傳輸或處理。5.4.3語音輸入與識別語音識別的原理如圖5-6所示,是圖5-6語音識別原理圖5-6語音識別原理5.4.3語音輸入與識別具體操作通常使用專門的元件或信號處理器抽取特征信息。比較和決定一般由系統的主處理器處理,但具有參考特征的詞典通常位于計算機的二級存儲單元。大多數具體的實現方法在如何定義特征信息時會有所不同。如圖5-7所示。5.4.3語音輸入與識別具體操作通常使用專門的元件或信號圖5-7語音識別組成部分圖5-7語音識別組成部分5.4.3語音輸入與識別語音輸入中的一個特殊問題是房間的聲學特性,即環境噪聲,此外,必須定義字邊界,但這并不容易做到,因為大多數人說話并不強調一個字的開始和結束,同一個字也可以被說得有快有慢。依賴于特定人的識別系統比獨立于講話者的系統能識別更多的字,但這是以提前“訓練”系統為代價的。為訓練系統使之適應說話者,通常要求他讀特定的語音序列。目前的語音識別系統有大約半個小時的訓練時間。大多數依賴說話者的系統能識別出25000個字或者更多,而獨立于說話者的系統則命中率接近l000個字。注意,現實的系統評估還應包括環境因素。5.4.3語音輸入與識別語音輸入中的一個特殊問題是房間的5.5聲音文件的存儲格式在因特網和各種計算機上使用的聲音文件格式很多,但比較流行的主要是WAV、AU(audio)、AIFF(audiointerchangeablefileformat)和SND(sound)文件格式。WAV格式用于PC機,AU用于Unix工作站,AIFF和SND用于蘋果機和SGI工作站。為便于讀者辨認文件的屬性,表5-2列出了部分聲音文件的后綴。5.5聲音文件的存儲格式在因特網和各種計算機上使用的聲音表5-2常見的聲音文件擴展名表5-2常見的聲音文件擴展名5.6聲卡在多媒體計算機中,所有的音樂與音效都需要經過聲卡來處理。聲卡使用大規模集成電路技術,將音頻技術范圍的各類電路制成芯片而組成,以便直接插入計算機的擴展槽里,使用方便。聲卡的主要工作就是把數字信號轉換成模擬信號,然后送到喇叭上發出聲音;另一方面,聲卡也可以對計算機上的各種音頻進行“混音”,例如串聯電子合成樂器,或是從麥克風輸入聲音后與CD音樂一起由喇叭放出來等。5.6聲卡在多媒體計算機中,所有的音樂與音效都需要經5.6聲卡聲卡通過反復地檢測和記錄聲音信號的幅度來實現稱為“采樣”(實際上每秒種要做幾萬次這樣的操作)的錄音過程,將聲音信號轉化為大量的幅度隨時間變化的數字,并存儲在磁盤上。播放聲音的過程與錄音正好相反,計算機將一串數字傳給聲卡,聲卡將它們轉換成模擬信號,根據數字量的大小改變模擬信號的幅度,經放大后由音箱播出。5.6聲卡聲卡通過反復地檢測和記錄聲音信號的幅度來實5.6.1 主要技術指標評價聲卡的主要技術指標是:1)采樣頻率:為記錄信號的精確細節,聲卡必須以極快的速率進行采樣。聲卡的采樣頻率通常有三個標準:11.025kHz、22.05kHz和44.1kHz,目前一般的聲卡都能達到44.1kHz的采樣頻率。2)采樣位數(量化位數):另一個影響聲音質量的重要因素是每個采樣點幅度的準確性。采樣位數越多,聲音的幅度就會越精確,但占用的存儲空間也就越多。目前通常使用的有8位(低檔)、16位(中檔)和32位(高檔)3種量化精度的聲卡。3)聲道數:分單聲道和雙聲道,雙聲道可以播放立體聲信號。一般的聲卡都是雙聲道的。5.6.1 主要技術指標評價聲卡的主要技術指標是:5.6.1 主要技術指標4)MIDI(數字化樂器接口)和游戲桿接口:該接口能夠利用計算機控制和演奏電子樂器,或利用諸如Windows提供的實用程序記錄電子樂器演奏的音樂,然后進行回放。游戲桿接口用來與游戲操縱桿相接,在聲卡上一般與MIDI接口共享。5)合成器:音色是區別不同樂器的重要特征之一,聲卡上的合成器能將各種不同頻率的聲音混合起來,形成某種特定樂器的音色。例如安裝在計算機上的控制軟件對于同一組電子琴樂曲,可以同時選擇小號演奏效果和鋼琴演奏效果。合成器的主要參數是合成的復音數和用語音合成的操作數目。一般有20種復音就可以滿足大多數用戶的需要了,復音成分越多越適合于專業音樂工作者。5.6.1 主要技術指標4)MIDI(數字化樂器接口)和5.6.1 主要技術指標6)內部聲音混合調節器:主要功能是將來自不同輸入源的聲音信號進行混合和音量調節。該混合器可以編程和控制。7)CD-ROM接口:若用戶需要使用CD-ROM來播放CD、VCD節目,應將聲卡上的CD-ROM接口和CD-ROM上的聲卡接口用專用的三芯電纜連接起來。連接時應注意各接口的規格,因為不同的CD-ROM聲卡接口標準可能略有不同。5.6.1 主要技術指標6)內部聲音混合調節器:主要功能5.6.2功能和分類聲卡的心臟是音效芯片,它有多個音頻接口,通過音頻線和光驅或其他的音頻輸入相連。一般聲卡上都有CD-ROM接口,在聲卡的檔板上,可以看見一排輸出/入端子及游戲桿連接口。聲卡的主要功能包括錄音、編輯和回放數字音頻文件;控制各聲源的音量并加以混合;在記錄和回放數字音頻文件時進行壓縮和解壓縮;采用語音合成技術讓計算機朗讀文本;具有初步的語音識別功能;具有MIDI接口、輸出功率放大等。5.6.2功能和分類聲卡的心臟是音效芯片,它有多個音頻接5.6.2功能和分類聲卡主要根據其數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論