聲音信號處理與項目實踐 課件匯 第1-7章 緒論-聲音合成與轉換_第1頁
聲音信號處理與項目實踐 課件匯 第1-7章 緒論-聲音合成與轉換_第2頁
聲音信號處理與項目實踐 課件匯 第1-7章 緒論-聲音合成與轉換_第3頁
聲音信號處理與項目實踐 課件匯 第1-7章 緒論-聲音合成與轉換_第4頁
聲音信號處理與項目實踐 課件匯 第1-7章 緒論-聲音合成與轉換_第5頁
已閱讀5頁,還剩391頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1章緒論1.1聲音信號處理的研究內容1.2聲音信號處理的發展歷史1.3聲音效果評價2什么是聲音信號處理聲音信號處理的應用領域目前的挑戰1.1聲音信號處理的研究內容31.1聲音信號處理的研究內容語音,作為人工智能的重要組成部分和人類最自然的溝通方式之一,是日常生活交流活動中不可或缺的媒介。聲音信號處理是信息科技領域中不可或缺的一環,通過提取分析和修改聲音信號來改善人類生活的各個方面。從基本的需求到復雜的數據分析,聲音信號處理在現代社會扮演了極其重要的角色。4聲音信號處理技術遍及許多領域,如通信系統、醫療健康、智能駕駛、虛擬現實等等圖聲音信號處理技術的部分應用場景1.1聲音信號處理的研究內容51.1聲音信號處理的研究內容研究目標:主要集中在提高算法性能,提升系統的可用性及穩定性以及拓展應用的范圍。算法的復雜性與計算成本環境噪聲和回聲的影響深度學習和人工智能的整合用戶隱私和數據安全61.2.1語音編碼算法的發展歷史1.2.2語音識別算法的發展歷史1.2.3語音去噪及增強算法的發展歷史1.2.4語音合成轉換等其他算法的發展歷史1.2.5基于語音和視覺信息的多模態融合方法1.2聲音信號處理的發展歷史71.2聲音信號處理的發展歷史20世紀初,聲音信號處理技術處于起步階段,技術手段主要局限于模擬電路。隨著貝爾實驗室在1937年發明了電子計算機上的脈沖編碼調制(PCM)技術,聲音信號處理迎來了其第一個重大突破。820世紀50年代至70年代,隨著半導體技術和集成電路的發展,數字信號處理器誕生并逐漸成熟。在此時期,傅里葉變換等數學工具被引入聲音信號分析,為頻域處理提供了理論基礎,成為聲音信號處理不可或缺的一部分。21世紀,隨著計算能力的不斷增強和算法的進一步優化,多通道編碼、音頻技術、聲音識別和降噪技術等等技術產生重大進展。1.2聲音信號處理的發展歷史91.2.1語音編碼算法的發展歷史語音編碼方法主要分為以下幾類:脈沖編碼調制(PCM)、差分脈沖編碼調制(DifferencePulseCodingModulation,DPCM)、增量調制(ΔM)、線性預測編碼(LinearPredictiveCoding,LPC)、碼激勵線性預測(CodeExcitedLinearPredictiion,CELP)、矢量量化(Vector

Quantization,VQ)、子帶編碼(SubbandCoding,SBC)、變換編碼(TransferCoding,TC)、矢量量化器(VQ)和混合激勵線性預測(Mixed

Excitation

Linear

Prediction,MELP)的結合。脈沖編碼調制(PCM)脈沖編碼調制是最早的數字語音編碼方法之一它通過將語音信號采樣為離散的樣值,然后對這些樣值進行量化,最終實現語音的數字化PCM技術最初在20世紀50年代被提出,并被廣泛應用于電話通信中隨著技術的發展,PCM的采樣率和量化精度不斷提高,目前已經可以實現高質量的語音傳輸圖PCM編碼概述圖差分脈沖編碼調制(DPCM)圖DPCM編碼概述圖差分脈沖編碼調制是PCM的一種改進,它通過預測下一個樣值,并指傳輸與預測值之間的差值,從而減少傳輸的數據量,其在音頻壓縮和語音編碼中得到了廣泛應用。增量調制(ΔM)增量調制是一種簡單而有效的語音編碼算法,它通過只傳輸樣值之間的增量來減少數據量。ΔM算法在20世紀70年代被提出,并被廣泛應用于低比特率語音編碼中。其中最具代表性的算法是μ率編碼和A率編碼,它們已經被廣泛應用于電話通信和音頻壓縮領域。線性預測編碼(LPC)LPC是一種基于語音信號和線性預測模型的數字語音編碼方法。LPC跨越有效地去除語音信號中的冗余信息,從而高效地實現語音壓縮碼激勵線性預測(CELP)CELP是一種基于碼本和線性預測模型的數字語音編碼方法,被廣泛應用于低比特率語音編碼中。CELP通過在碼本中搜索與輸入信號最接近的樣本來實現高效的語音壓縮。矢量量化(VQ)VQ是一種將輸入信號與一組已知矢量進行比較,并選擇最接近的矢量進行傳輸的數字語音編碼方法。VQ被廣泛應用于音頻壓縮和語音編碼中。其中最具代表性的算法是多頻帶矢量化(MB-VQ)和格型矢量量化(LVQ)。圖VQ編碼概述圖子帶編碼(SBC)圖SBC編碼概述圖SBC是一種將音頻信號分解為若干子帶的數字語音編碼方法,被廣泛應用于音頻壓縮和語音編碼中。SBC通過在每個子帶上應用不同的編碼算法來提高音頻壓縮效率。變換編碼(TC)圖TC編碼概述圖TC是一種將音頻信號從時域轉換到頻域的數字語音編碼方法,被廣泛應用于音頻壓縮和語音編碼中。TC通過去除信號中的冗余信息來提高音頻壓縮效率。其中最具代表性的算法是離散余弦變換和快速傅里葉變換。161.2.2語音識別算法的發展歷史初期階段統計方法的引入機器學習的應用深度學習的革命現代技術與應用隱馬爾科夫模型HMM成為主流模型,用于處理語音信號。引入梅爾頻率倒譜系數MFCC來提取特征,使得語音信號的表示更為有效隨著DNN、CNN、RNN等深度學習技術的發展,在識別語音情感上表現優異1956年,隨著人工智能研究的大門的開啟,對語音識別的研究也隨之開始。隨著機器學習的逐步發展,研究者們結合多個模型(如HMM和神經網絡)以調高識別準確率目前,語音識別算法在自監督學習,多模態學習等技術的進步下仍在不斷發展171.2.3語音去噪及增強算法的發展歷史數字語音去噪聲音去噪算法聲音增強算法聲音異常檢測算法免疫K-奇異值算法譜減法小波分析技術兩級語音增強算法正交匹配追蹤算法自適應的維納濾波算法音頻事件定位音頻事件識別181.2.4語音合成轉換等其他算法的發展歷史語音合成轉換算法語音合成算法聲音轉換算法物理機理語音合成統計參數的語音合成濾波器語音合成基于波形拼接技術的語音合成矢量量化(VQ)生成對抗網絡(GAN)高斯混合模型(GMM)變分自動編碼器(VAE)191.2.5基于語音和視覺信息的多模態融合方法近年來,盡管單模態聲音識別任務取得了一些研究成果,但研究表明,多模態的識別任務效果優于單一模態。研究者們嘗試結合不同模式的信號,如語音、視覺等信息,從而提高各種識別任務的效率和精確度。201.2.5基于語音和視覺信息的多模態融合方法方法分類:模型無關的方法和基于模型的方法根據特征融合的時期,又可以將模型無關的方法進一步分為:早期融合(基于特征層)、晚期融合(基于決策層)和混合融合模型無關的特征融合方法圖模型無關的特征融合方法早期融合方法如圖(a)所示,為解決各模態中原始數據維度不一致的問題,從每種模態分別提取特征,然后在特征級別進行融合,即特征融合。此外,由于深度學習本質上會涉及從原始數據中學習特征的具體表示,這就導致了有時可能在沒有抽取特征之前就需要進行融合,即數據融合。無論是特征層面還是數據層面的融合都稱為早期融合。(a)早期融合方法(b)晚期融合方法(c)混合融合方法模型無關的特征融合方法圖模型無關的特征融合方法晚期融合方法如圖(b)所示,晚期融合也叫決策級融合。深度學習模型先對不同的模態進行訓練,再融合多個模型輸出的結果。當模態之間相關性比較大時晚期融合優于早期融合,當各個模態在很大程度上不相關時,例如維數和采樣率極不相關,采用晚期融合方法則要更適合。(a)早期融合方法(b)晚期融合方法(c)混合融合方法模型無關的特征融合方法圖模型無關的特征融合方法混合融合方法如圖(c)所示,混合融合結合了早期和晚期融合方法,在綜合了二者優點的同時,也增加了模型的結構復雜度和訓練難度。由于深度學習模型結構的多樣性和靈活性,比較適合使用混合融合方法,在多媒體、圖像問答任務、手勢識別等領域應用得非常廣泛。(a)早期融合方法(b)晚期融合方法(c)混合融合方法模型相關的特征融合方法圖基于多層LSTM的模型層特征融合方法模型層融合:該方法旨在獲得多種模態的聯合特征表示,它的實現主要取決于使用的融合模型。模型層融合是更深層次的融合方法,為分類和回歸任務產生更優化的聯合判別特征表示。多層LSTM(Multi-layersLSTM,ML-LSTM)作為模型層融合方法之一,該方法是將多層網絡與傳統的LSTM模型相結合,通過充分考慮話語之間的關系,來使得在學習過程中處理話語層面的多模態融合問題。251.3聲音效果評價語音作為信息傳遞的重要載體,與其相關構成的通信、編碼、存儲和處理等語音系統已成為現代社會信息交流的必要手段,且已廣泛應用于社會各個領域。這些系統的性能好壞成為信息交流是否暢通的重要因素,而評價這些系統性能優劣的根本標志是在于系統輸出語音質量的好壞。可以將語音質量評價方法分為兩大類:主觀評價和客觀評價。261.3.1主觀評價方法主觀評價以人為主體來評價語音的質量優點:符合人耳對語音質量的感覺;缺點:受人的主觀意識影響大,成本高,穩定性較差且靈活性不夠等語音質量常用的方法是平均意見得分(MeanOpinionScore,MOS)。分值語音質量失真級別5優沒察覺4良剛有察覺且不覺得討厭3中有察覺且稍覺可厭2差明顯察覺且可厭但可忍受1劣不可忍受表MOS評分描述表271.3.2客觀評價方法客觀評價方法

1.試闡述聲音都可以應用在生產實際的哪些場合?有哪些產品中包含聲音處理技術?2.嘗試選擇一種具體的聲音技術,描述其算法發展歷史。3.關于語音的評判方法有哪些方法?28練習題第2章聲音信號簡介2.1人類語音信號的產生2.2語音信號的基本特征2.3聲音的特征提取2.4人類的聽覺感知2.5語音數據庫30人類語音信號是如何產生的2.1人類語音信號的產生312.1人類語音信號的產生人類語音信號的產生可以等效為下圖所示的過程,包括噪聲源(NoiseSource)、聲門源(GlottalSource)、聲道濾波器(Vocal-TractFilter)和輻阻抗(RadiationImpedance)。圖語音信號的產生322.1人類語音信號的產生

Z變換

332.1人類語音信號的產生

Z反變換342.2語音信號的基本特征音質特征:頻率微擾、聲門參數、共振峰韻律特征:基頻、時長、過零率、對數能量譜相關特征:線性譜特征(線性預測系數)

倒譜特征(線性預測倒譜系數、Mel頻率倒譜系數)深度學習特征語音信號的基本特征352.3聲音的特征提取聲音特征手工聲音特征:韻律特征、音質特征、譜特征、 Mel頻率倒譜系數深度語音特征:卷積神經網絡(CNN)、長短期記憶網絡(LSTM)、 SincNet、Transformer和注意力機制362.4人類的聽覺感知因為語音增強效果的最終度量是人的主觀感受,所以語音感知對語音增強研究有重要的作用:1、人耳對語音的感知是通過語音信號中各頻譜分量幅度獲取的,對各分量的相位則不敏感。2、人耳對頻譜分量強度的感受是頻率與能量譜的二元函數,響度與頻譜幅度的對數成正比。3、人耳對頻率高低的感受近似與該頻率的對數值成正比。4、人耳有掩蔽效應,即強信號對弱信號有掩蔽抑制作用。掩蔽的程度是聲音強度與頻率的二元函數。5、短時譜中的共振峰對語音的感知十分重要,特別是第二共振峰比第一共振峰更為重要,因此對語音信號進行一定程度的高通濾波不會對可懂度造成影響。6、人耳在兩人以上的講話中有能力分辯出需要聆聽的聲音。372.5語音數據庫語音數據庫是語音信號處理研究的基礎,包括數據庫建設的目的、類型、創建與采集過程、標準化與共享原則以及倫理和法律方面的考量。自然語音數據庫語音識別數據庫聲音情感數據庫語音合成數據庫CallHome數據集TIMIT數據集LibriSpeech數據集2.5.1語音識別數據集392.5.2聲音情感數據庫圖二維的Arousal-Valence狀態空間圖語料庫年齡語言情感表現形式樣本數采樣頻率kHzDMO-DB成人德語表演型49416CASIA成人中文表演型960016ABC成人德語表演型43016FAUAIBO兒童德語自然型1821616eNTERFACE成人英語引導型127716SUSAS成人英語自然型35938VAM成人德語自然型94716TUMAVIC成人英語自然型300244表

不同語音情感數據庫間差異402.5.3多模態情感數據庫數據集名稱建立年份數據類型情感標簽簡要描述eNTERFACE’052006語音、視頻憤怒、厭惡、恐懼、快樂、悲傷、驚訝來自14個不同國家的42名參與者,錄制了1277個視聽樣本RML2008語音、視頻憤怒、厭惡、恐懼、幸福、悲傷、驚訝8名參與者,錄制了720個視聽情感樣本IEMOCAP2008語音、視頻、文本、人體姿態中性、快樂、悲傷、憤怒、驚訝、恐懼、厭惡、沮喪、興奮10名演員,錄制了共10039段對話,平均對話時間為4.5sSAVEE2011語音、視頻生氣、厭惡、恐懼、高興、中性、悲傷、驚訝來自薩里大學的4位母語英語男性,每人錄制了120個音視頻片段AFEW2012語音、視頻憤怒、厭惡、恐懼、幸福、悲傷、驚訝、中性由1426個試聽片段構成BAUM-1s2016語音、視頻快樂、憤怒、悲傷、厭惡、恐懼、驚訝31名土耳其參與者,共錄制了1222個視聽樣本CHEAVDI2016語音、視頻憤怒、快樂、悲傷、擔心、焦慮、驚訝、厭惡、中性從電影、電視劇、電視節目中獲取了140min的自發情感片段CMU-MOSI2016語音、視頻、文本消極、積極由93段視頻,2199個評論話語組成RAMAS2018語音、視頻、人體姿態、生理信號憤怒、厭惡、快樂、悲傷、恐懼、驚訝由10名演員錄制的7h高清晰度特寫視頻RAVDESS2018語音、視頻中性、平靜、快樂、悲傷、憤怒、恐懼、厭惡、驚訝24位演員,每人錄制60段講話、44首歌曲CMU-MOSEI2018語音、視頻、文本快樂、悲傷、憤怒、恐懼、厭惡、驚訝從YouTube上獲取了1000多名在線演講者的3837段視頻MELD2019語音、視頻、文本憤怒、厭惡、恐懼、喜悅、中立、悲傷、驚訝截取自電視劇Friends中的1433段對話表

常見的多模態情感數據集41練習題2.請描述人類語音產生的模型?并且說明為什么人類語音可以分為周期性信號和非周期性信號。3.

什么是人耳的聽覺掩蔽效應?如何利用其提高語音處理性能?42練習題第3章短時時域處理技術3.1語音信號的短時處理方法3.2短時能量和短時平均幅度3.3短時過零率3.4短時自相關函數3.5基音提取44語音端點檢測預加重分幀和加窗3.1語音信號的短時處理方法453.1語音信號的短時處理方法預處理的作用:在對語音信號進行特征提取之前,消除高次諧波失真、混疊、高頻等現象對語音信號產生的負面影響,盡可能保證經過預處理后的信號更平滑、干凈,方便有效地提取并表示語音信號所攜帶的信息圖預處理流程圖463.1.1語音端點檢測端點端點檢測(VoiceActivityDetection,VAD)也被稱作語音活動檢測,其目的主要是對一段音頻區分語音部分與非語音部分,從而忽略噪聲部分和靜音部分,提取包含有效信息的語音端。帶閾值的端點檢測基于分類器的端點檢測基于模型的端點檢測端點檢測帶閾值的端點檢測

483.1.2預加重預加重是一種在發送端對輸入信號高頻分量進行補償的信號處理方式,增強信號的高頻成分。而預加重對噪聲并沒有影響,因此能夠有效地提高輸出信噪比。493.1.3分幀與加窗語音信號通常是非平穩的,特別是低質量環境下的情感語音。因此,語音信號需要進行短時分析,即認為在短時間內該聲音是平穩的,一般采取分幀與加窗處理。分幀將語音片段進行分段處理,一般的語音信號以10-30ms為一幀進行劃分,劃分后假定認為每一幀短時平穩。考慮到幀與幀之間具有相關性,相鄰幀之間會保留一部分重疊從而上下幀之間平穩過渡,重疊部分稱之為幀移。圖幀移與幀長比例為1/4的分幀示意圖加窗加窗的目的:讓一幀信號的幅度在兩端漸變到0,能夠提高頻譜的分辨率;同時,加窗能夠使全局信息更加連續,避免出現吉布斯效應。窗的作用實際上是強調窗內的信號,削弱窗外信號。為了完全保留窗內信號的性質,理想的窗函數盡可能相當于脈沖形式,用來增加其頻率分辨率,并具有無旁瓣(即頻率漏泄)的特性。常見窗函數矩形窗海寧窗海明窗布雷克曼窗函數性質矩形窗具有最窄主瓣、最高頻率分辨率,同時也有最大的頻率漏泄、呈現更多噪聲。布累克曼窗有最低的頻率分辨率和最小的頻率漏泄,表現在頻譜上比其他窗形更平滑。海明窗的折衷效果較好,在語音分析窗中應用的也最為廣泛。分析窗矩形海寧海明布累克曼48812旁瓣漏泄(dB)-13.3-31.5-42.7-58.1表窗的特性543.2短時能量和短時平均幅度短時能量:常用在端點檢測,估測有聲之音母或韻母的開始位置及結束位置;也用于區分清濁音。因此,當語音段信噪比較高時,可以用短時能量進行語音分類。553.2短時能量和短時平均幅度

上圖音頻的原始波形和短時能量

左圖短時能量進行語音分類代碼等主觀音量曲線等主觀音量曲線代表了人耳對于不同頻率聲音的靈敏程度,即人耳的頻率曲線。主觀音量除了和頻率有關外,也和聲音的內容,如音色、基本周期的波形等有關。例如,可以盡量使用相同的主觀音量來錄下幾個發音比較單純的元音,再用音量公式來算它們的音量,就可以看出音量公式和發音嘴型的關系。圖等主觀音量曲線等主觀音量曲線上圖元音/o/的音量曲線圖左圖繪制相應圖像代碼583.2短時能量和短時平均幅度短時能量:改進缺點:對信號電平值過于敏感。需要計算信號樣值的平方和,容易產生溢出。短時平均幅度:優點:用絕對值代替平方和,簡化運算,也能更好的表達清音的幅度變化593.3短時過零率

603.3短時過零率上圖音頻信號的短時過零率右圖提取音頻信號短時過零率代碼613.3短時過零率計算過零率時常遇問題:由于有的信號恰好位于零點,過零率的計算就有兩種,出現的效果也會不同。因此必須多加觀察,才能選用最好的作法。大部分使用聲音的原始整數值來進行計算,這樣才不會因為使用浮點數信號減去直流偏移(DCBias)時,造成過零率的增加。623.4短時自相關函數自相關函數用于衡量信號自身時間波形的相似性,表示為平穩的自相關函數性質:1.對稱性:R(k)=R(-k)2.在k=0時取最大值,即|R(k)|≤R(0)3.對于確定信號,R(0)對應能量;對于隨機信號,R(0)對應功率633.4短時自相關函數上述的第2個性質中,如果是一個周期為P的信號,則在取樣處,其自相關函數也是最大值,因此可以根據自相關函數的最大值的位置來估計周期信號的周期值。假設一段語音是濁音信號,則其短時自相關函數也呈現周期現象,且其自相關函數的周期等于原語音信號的周期;若語音是清音信號,則其自相關函數不存在周期性。643.5短時時域處理技術案例:基音提取基音是基于發聲器官如聲門、聲道和鼻腔的生理結構而提取的參數,能夠很好地刻畫說話人的聲帶特征,在很大程度上反映了人的個性特征。目前,已經存在的很多基音檢測算法是根據所在語音幀的清濁音分類結果進行檢測。基音所受影響聲道濾波的影響使聲門激勵呈現出非完美的周期性。例如,放松的說話和用力說話令聲門波平滑或猛烈地關閉,基音隨之變化。即使說話人努力地想保持說話方式或者聲道的形狀,基音也會隨機地抖動,連續聲門波的幅度也會放大或者削弱而無法令基音周期保持不變。在清濁音語音類型變化處,由于語音的平穩性遭到破壞,基音特性變化速度快。基音范圍比較大,在50~400Hz之間,難以非常精確地檢測基音。當清濁音同時存在的時候,基音難以準確檢測。豐富的諧波信息的存在,基音難以準確檢測。由于環境噪聲的存在,比如人聲喧嘩處、汽車內或有其他聲音的干擾,難以準確檢測基音。66圖中心削波法提取基音法流程圖

3.5.1基音檢測估計1:三電平削波法67左圖去噪后的語音信號右圖中心削波處理后的信號3.5.1基音檢測估計1:三電平削波法683.5.1基音檢測估計2:SHR諧波檢測法提取基音時經常取到基音的倍頻或者半頻,引起基音檢測的誤差和基音提取的誤判諧波-諧波比率(Subharmonic-harmonicRatio,SHR)基音提取方法693.5.1基音檢測估計2:SHR諧波檢測法圖(a)

原始語音波形圖(b)

噪聲波形圖(c)

原始語音加噪聲波形圖(d)

真實語音波形與帶噪語音時域波形1.語音信號為什么要進行短時處理?是怎么實現的?2.假設一段語音采樣頻率為8000Hz,請實現語音信號的分幀和加窗,要求幀長為20ms,幀移為10ms,窗型為海明窗;并畫出其中一幀語音加窗前后的波形。3.基音表示聲音信號的什么特征?它由什么因素決定?對于男聲、女聲、小孩的聲音,基音有什么特性?70練習題4.可以用什么特征來區分聲音和噪聲?在一段語音信號中,可以用什么方法判斷語音的起點和終點?5.基音怎么提取?請用一種方法實現基音提取,并比較其在純凈語音、10dB信噪比、5dB信噪比、3dB信噪比和0dB信噪比的情況下該算法的結果。6.為什么削波處理的基音提取方法比一般的自相關方法提取的基音要更準確?71練習題第4章短時傅里葉變換4.1短時傅里葉變換的定義4.2短時傅里葉變換的理解4.3短時傅里葉變換的實現4.4短時傅里葉變換的應用案例734.1短時傅里葉變換的定義傅里葉變換FT對于聲音非平穩信號,其頻率成分隨時間變化,僅使用FT無法同時獲取信號的時間和頻率信息短時傅里葉變換STFT744.1短時傅里葉變換的定義離散信號STFT連續信號STFTSTFT使用窗函數將信號分段,并對每一段應用傅里葉變換。窗的大小決定了時間和頻率的分辨率:窗越長,頻率分辨率越高,時間分辨率越低;窗越短,時間分辨率越高,頻率分辨率越低。對于時變的非穩態信號,高頻適合小窗口,低頻適合大窗口754.1短時傅里葉變換的定義在實際應用中,信號通常是有限長度的,這限制了頻率分辨率。離散化可以幫助在有限的數據長度內更有效地進行頻率分析。類似于時域采樣,對頻域在單位圓上進行離散化采樣,就可以得到頻率離散的STFT頻域離散化可以使傅里葉變換更容易在計算機上實現。通過使用快速傅里葉變換(FFT)算法,計算效率可以大大提高。764.1短時傅里葉變換的定義STFT的輸出是一個二維函數,通常表示為時頻譜圖,其中橫軸表示時間,縱軸表示頻率,用不同的顏色表示信號在該時間和頻率位置的能量或幅度。在STFT時頻譜圖中,時域被分幀,并對每一幀計算傅立葉變換以獲得頻率。幀位置在整個數據中滑動以獲得STFT系數。774.2短時傅里葉變換的理解對于非平穩信號,傅立葉變換只能反映整個信號當中有哪些頻率成分,而無法反映各個成分出現的時間,信號各個頻率成分的大小隨時間變化的情況,各個時刻的瞬時頻率及其幅值,而短時傅里葉變換STFT則能捕獲這些傅里葉變換丟失的信息。784.2短時傅里葉變換的理解圖原始信號的時域波形及頻譜圖圖時域反轉后信號的時域波形及頻譜圖794.2短時傅里葉變換的理解圖x(t)時域波形及頻譜圖圖x(t)加入突變后的時域波形及頻譜圖將信號x(t)=2cos(20t)+4sin(60t)的某個位置加入一個高頻突變,其圖像如下圖所示804.2短時傅里葉變換的理解圖x(t)加入突變后的時域波形及頻譜圖在頻譜圖中,這樣的變化并沒有被很好的捕捉到。注意下圖框中部分,顯然傅里葉變換把突變解釋為了一些列低成分高頻信號的疊加,并未很好地反映突變擾動給信號帶來的變化。814.2短時傅里葉變換的理解圖原始信號的時域波形及頻譜圖圖時域反轉后信號的時域波形及頻譜圖824.2短時傅里葉變換的理解圖STFT濾波器組框圖在濾波器形勢下,STFT的另外一個表達式為:圖STFT合成框圖窗函數的帶寬ΔfΔf是窗函數頻率分辨率的二階矩,計算的是能量加權的平均頻率的平方,與單純平均頻率的平方的差值。這給出了關于窗函數的頻率分布的“寬度”的量度。與之類似還有時間分辨率Δt,這是窗函數在時間域中能量分布的寬度窗函數的帶寬Δf分辨率數值越小則分辨率越高,時間分辨率和頻率分辨率不能無限制提高,因為它們的乘積必須滿足一個下限:

即不可能同時在時間和頻率上有高分辨率,在保證一個維度的分辨率時會犧牲另一個維度的分辨率。高斯窗函數是滿足下界的窗函數,在時域和頻域都具有最優的分辨率,然而在實際應用中并不是首選,這是因為相比于海明窗等,高斯窗的旁瓣的降落緩慢,容易導致頻譜的泄露。854.3短時傅里葉變換的實現86MFCC的提取和應用聲音去噪算法的實現聲音信號熵的提取應用4.4短時傅里葉變換的應用案例874.1.1MFCC的提取和應用

倒譜是語音信號處理中常用的一種特征表示方法。它是對信號頻譜的對數譜的反變換。倒譜能夠提取語音信號的周期性特征,對于聲調、共振峰和聲帶振動等特征具有較好的描述能力。設語音信號為s[n],其離散傅里葉變換DFT為S(k),則其倒譜系數為884.1.1MFCC的提取和應用梅爾倒譜系數(MFCC)是在Mel標度頻率域提取出來的倒譜參數。倒譜和梅爾頻率倒譜的區別在于,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它更接近人類的聽覺系統,Mel標度描述了人耳頻率的非線性特征,對低頻較敏感而對高頻不敏感圖頻率和MEL頻率曲線圖894.1.1MFCC的提取和應用MFCC的計算步驟有:1.預加重2.分幀3.加窗4.快速傅里葉變換5.濾波器6.離散余弦變換7.取對數預加重

預加重例:分幀取N個采樣點集合成一個觀測單位,稱為一幀,N的值通常為256或512,覆蓋時間約為20到30ms。為避免兩幀之間變化過大,相鄰兩幀之間有一定重疊,重疊區域包含M個采樣點,通常為N的1/3至1/2。若語音信號的采樣頻率為8kHz,幀長度取256個采樣點,則對應的時間長度為256/8000×1000=32ms加窗窗函數的主要目的是加強幀左右的連續性。在頻域分析中,將時域信號分割成窗口后,會在每個窗口內進行頻譜分析。如果不加窗函數直接對窗口內的信號進行傅里葉變換,由于窗口的大小不是無限長的,導致實際頻譜的能量會泄漏到其它的頻率成分上去。窗函數在時域上對信號進行加權,以平滑地將信號從無限延伸的形式轉換為有限長度的形式。這樣做可以減少信號在窗口邊界處的不連續性,從而減輕頻譜泄漏的影響。加窗

加窗圖不同a值下海明窗函數曲線圖快速傅里葉變換圖原始信號和加窗信號對應的波形和能量譜圖濾波器

m表示濾波器的個數,f(m)表示每個濾波器的中心頻率。頻譜有包絡和精細結構,分別對應音色與音高。對于語音識別來講,音色是主要的有用信息,音高一般沒有用。在每個三角形內積分,就可以消除精細結構,只保留音色的信息。離散余弦變換DCT

取對數標準的倒譜參數MFCC只反映了語音參數的靜態特性,語音的動態特性可以用這些靜態特征的差分譜來描述。把動、靜態特征結合起來才能有效提高系統的識別性能。差分參數的計算可以采用下面的公式:

代碼實現圖MFCC頻譜圖1014.4.2.1譜減法去噪譜減法是一種發展較早且應用較為成熟的語音去噪算法,該算法利用加性噪聲與語音不相關的特點,在假設噪聲是統計平穩的前提下,用無語音間隙測算到的噪聲頻譜估計值取代有語音期間噪聲的頻譜,與含噪語音頻譜相減,從而獲得語音頻譜的估計值。譜減法具有算法簡單、運算量小的特點,便于實現快速處理,往往能夠獲得較高的輸出信噪比,所以被廣泛采用。該算法的不足之處是處理后會產生具有一定節奏性起伏的背景噪聲。1024.4.2.1譜減法去噪1034.4.3聲音信號熵的提取應用

1044.4.3聲音信號熵的提取應用聲音信號的熵描述的是信號中所有可能值的信息量的期望值,或者說是平均信息量,用來度量信號的不確定性。聲音信號熵是對聲音信號的信息量和不確定性的度量,它可以幫助我們從聲音中提取有用的特征和信息。對于一個離散的聲音信號X,其信息熵H(X)為:代碼實現圖聲音信號的信息熵1064.4.3聲音信號熵的提取應用

代碼實現圖聲音信號的能量熵圖聲音信號的頻譜熵1、在聲音信號處理中,為什么要使用短時傅里葉變換?短時傅里葉變換有什么具體的作用?2、請完成一個信號的短時傅里葉變換代碼實現,并分別畫出其時域波形和頻譜波形的示意圖。3、語音信號的短時頻譜中,主要信息集中在哪個范圍?108練習題4、

試闡述語譜圖的提取流程,并畫出流程框圖。5、試著實現提取語譜圖的代碼,并比較:(1)窄帶語譜圖和寬帶語譜圖的區別;(2)不同窗長語譜圖的區別。6、試提出其它短時傅里葉變換的具體應用場景。109練習題第5章聲音信號的線性預測編碼5.1線性預測基本原理5.2線性預測的解析算法5.3線性預測分析應用案例線性預測編碼(LPC)的基本思想由于語音信號的每個樣點之間存在相關性,所以能夠使用過去的樣點值來預測和推理現在與將來的樣點值。換句話說,對一個語音的抽樣能夠用過去若干個語音的抽樣來逼近。通過使實際語音抽樣和線性預測下的語音抽樣之間的誤差在某個準則下達到最小值來決定最優的一組預測系數,而這組預測系數就客觀反映了語音信號的特性1125.1線性預測基本原理線性預測的基本原理是用過去的樣點值來預測某個模型現在或者未來的樣點值

1135.1線性預測基本原理

1145.1線性預測基本原理可以用準周期脈沖或白噪聲激勵一個線性時不變系統聲道所產生的輸出作為語音的模型,用公式表達為

1155.1線性預測基本原理根據的形式不同,有三種不同的信號模型:1、若H(z)同時含有極點和零點,稱作自回歸—滑動平均模型(AutoregressiveMovingAverage,ARMA),這是一種常見的模型。2、若H(z)的分子多項式為常數,即b=0,此時為全極點模型,當前模型的輸出只取決于過去的信號值,這種模型稱為自回歸模型(Autoregressive,AR)。3、若H(z)的分母多項式為1,即a=0,此時成為全零點模型,稱為滑動平均模型(MovingAverage,MA)。此時模型的輸出只由模型的輸入來決定。1165.1線性預測基本原理實際上語音信號處理中最常見的模型是全極點模型,這是因為如果不考慮鼻音和摩擦音,那么語音的聲道傳遞函數就是一個全極點模型;而對于鼻音和摩擦音,細致的聲學理論表明其聲道傳輸函數既有極點又有零點,但這時如果模型的階數p足夠高,可以用全極點模型來近似表示極零點模型,因為一個零點可以用許多極點來近似。1175.1線性預測基本原理可以用線性預測分析的方法來估計全極點模型參數。采用全極點模型,輻射、聲道以及聲門激勵的組合譜效應的傳輸函數為:其中p為預測器階數,G為聲道濾波器增益,S(z)和E(z)為語音抽樣s(n)和激勵信號e(n)的z變換。1185.1線性預測基本原理語音信號s(n)和激勵信號e(n)之間的關系可以用下列的差分方程來表示:即語音樣點間有相關性,可以用過去的樣點值來預測未來的樣點值。對于濁音,e(n)是以基音周期重復的單位沖激;對于清音,e(n)時恒穩白噪聲1195.1線性預測基本原理在模型參數估計過程中,把下面的系統稱為線性預測器:

1205.1線性預測基本原理A(z)稱作逆濾波器,其傳輸函數為:

1215.1線性預測基本原理下面推導線性預測方程,把某一幀內的短時平均預測誤差定義為:

上式表明采用最佳預測系數時,預測誤差與過去的語音樣點正交。1225.1線性預測基本原理

則有:

1235.1線性預測基本原理考慮前式有:

1245.2線性預測的解析算法

1255.2線性預測的解析算法

即因此有1265.2線性預測的解析算法展開為矩陣形式為:這種方程叫Yule-Walker方程,方程左邊的矩陣稱為托普利茲(Toeplitz)矩陣,它是以主對角線對稱的,而且其沿著對角線平行方向的各軸向的元素值都相等。這種Yule-Walker方程可用萊文遜-杜賓(Levinson-Durbin)遞推算法來高效地求解。Durbin快速推算法將簡寫為:Durbin快速推算法將上式分為上下兩部分運算Durbin快速推算法將上式分為上下兩部分運算Durbin快速推算法令則有Durbin快速推算法

則將左右同乘Durbin快速推算法得到帶入有Durbin快速推算法最終解得

Durbin快速推算法

則得到帶入Durbin快速推算法由式有:再代入得到=Durbin快速推算法歸納得到:1375.2線性預測的解析算法完整的遞推過程如下:1385.3線性預測分析應用案例

而預測誤差的傳遞函數可寫為1395.3.1基音檢測估計利用線性預測倒譜法進行基音檢測1405.3.1基音檢測估計首先,運行SetII和PartII將語音信號讀入并且分幀,并進行了端點檢測。其次,對一句話提取每一幀的數據,加漢明窗,用lpc函數求出預測系數并計算預測誤差。最后利用求倒譜的方法對預測誤差計算倒譜,最終得到左圖結果。1415.3.1基音檢測估計利用簡化逆濾波法進行基音檢測1425.3.1基音檢測估計該方法的基本思想是:先對話音信號進行LPC分析和逆濾波,獲得語音信號的預測誤差,然后將預測誤差信號通過自相關器和峰值檢測,以獲得基音周期。語音信號通過線性預測逆濾波器后達到頻譜的平坦化,因為逆濾波器是一個使頻譜平坦化的濾波器,所以它提供了一個簡化的頻譜平滑器。預測誤差是自相關器的輸入,通過在自相關函數中尋找最大值,可以求出基音的周期。1435.3.2共振峰估計對一段語音利用LPC內插法檢測共振峰估計1445.3.1基音檢測估計首先,在程序中使用LPC函數求出了預測系數,直接調用了lpcar2pf函數由預測系數計算出功率譜。lpcar2pf函數是voicebox語音工具箱中的一個函數。其次,用findpeaks函數從功率譜曲線上找出峰值和峰值的位置。最后得到如左圖的運行結果1455.3.2共振峰估計讀入一段語音數據并采用

Extfrmnt函數檢測共振峰軌跡1465.3.1基音檢測估計左圖語音數據的波形和端點檢測的結果右圖在語音信號語譜圖上疊加共振峰的軌跡1、

概述聲音信號的線性預測原理。2、分別敘述線性預測分析自相關和協方差的解法。3、

常用的基音周期檢測方法有哪些?敘述它們的工作原理與框圖。147練習題4、試論述共振峰合成的原理及其在語音合成中的應用。5、試闡述線性預測系數如何用于共振峰的估計。148練習題

第6章信號編碼

6.1脈沖編碼調制6.2差分脈沖編碼6.3增量調制6.4基于線性預測編碼的聲碼器150均勻量化PCM非均勻量化PCM自適應量化PCM6.1脈沖編碼調制1516.1.1均勻量化PCM對語音信號進行數字化的最直接方法是進行A/D轉換,包括采樣和量化兩個過程。在采樣過程中,采樣頻率應高于信號中最高頻率的兩倍,以避免混疊失真。因此,通常在采樣之前需要進行抗混疊濾波,即低通濾波,以控制信號的最高頻率。在量化過程中,采樣得到的樣本的幅度使用均勻量化的方法表示為二進制數字信號,相當于使用一組二進制脈沖序列來表示各個量化后的采樣值。因此,語音波形信號被表示為一組用數字編碼的脈沖序列。這種編碼方法被稱為脈沖編碼調制(PCM)1526.1.1均勻量化PCM1536.1.1均勻量化PCM量化過程難免產生誤差,誤差定義為:(6.1)式中,為量化之后的量化信號,為量化之前的采樣信號。量化誤差通常也被稱為量化噪聲。對于均勻量化器而言,量化噪聲的功率僅取決于量化間隔,而與輸入信號的功率和概率分布無關1546.1.2非均勻量化PCMPCM編碼器的一個主要問題是編碼速率較高。為了滿足一定的信噪比要求,量化間隔不能太大。當語音信號具有較大的動態變化范圍時,為了避免信號超出量化范圍導致過載,必須使用較高的量化比特數。為了解決這個問題,可以根據語音信號的幅度統計分布特性進行非均勻量化。在語音信號中,樣本的幅度值并不均勻分布,而是大量集中在小幅度值上。通過對小幅度樣本使用較小的量化間隔,可以實現精確量化;而對于大幅度樣本,使用較大的量化間隔既可以提高信噪比,又可以避免大信號的過載1556.1.2非均勻量化PCM均勻量化和非均勻量化的特性如下圖所示:1566.1.2非均勻量化PCM

在編碼過程中,根據語音信號的幅度統計特性,對幅度進行對數變換以實現壓縮,然后進行均勻量化。在解碼過程中,則進行逆向的擴展變換。最常用的非均勻量化方法是對數壓縮擴展方法。對數壓縮擴展方法分為:

律壓縮

律壓縮1576.1.2非均勻量化PCM

μ律壓縮

1586.1.2非均勻量化PCM不同μ值下的μ律壓縮擴展特性曲線如下:1596.1.2非均勻量化PCM

1606.1.2非均勻量化PCM1616.1.3自適應量化PCM由于語音信號的特性隨時間變化,能量也隨之變化,因此可以采用自適應方法來根據短時能量的大小選擇合適的量化間隔進行量化。對于短時能量較大的信號,采用較大的量化間隔;而對于短時能量較小的信號,則采用較小的量化間隔。這樣可以減少量化噪聲,提高量化后信號的信噪比。這種方法被稱為自適應量化PCM(AdaptivePCM,APCM)在自適應量化器中,除了使用量化間隔作為量化器特性外,還可以使用放大增益來調節量化器特性。實現時,在固定的量化器之前加入一個自適應的增益控制,對于能量較大的信號采用較小的放大增益,而對于能量較小的信號,則采用較大的放大增益。這種自適應調整放大增益的方法與自適應調整量化間隔的方法是等效的。顯然,APCM編碼器除了發送量化結果外,還需要發送自適應調整參數作為輔助信息,以便解碼端得知當前采樣點的量化器特性1626.1.3自適應量化PCMAPCM編碼器除了發送量化結果外,還需要發送自適應調整參數作為輔助信息,以便解碼端得知當前采樣點的量化器特性。可以通過下式計算自適應參數的取值:

1636.1.3自適應量化PCMAPCM的自適應方案可以分為:前饋自適應反饋自適應

1646.2.1差分脈沖編碼原理6.2.2自適應差分脈沖編碼6.2差分脈沖編碼1656.2.1差分脈沖編碼原理語音編碼的目標是通過減少語音信號中的信息冗余來實現數據壓縮。語音信號中存在的主要冗余是采樣信號之間的高度相關性。研究表明,在采樣頻率為8kHz時,相鄰采樣值之間的自相關系數通常在0.85以上。我們可以利用這種相關性來減小量化字長,從而降低編碼速率。由于相鄰采樣值之間的差值遠小于采樣值本身,因此可以設計一種編碼方法,將差值進行編碼,而不是直接對采樣值進行編碼。這種編碼方法被稱為差分脈沖編碼(DifferencePulseCodeModulation,DPCM)。1666.2.1差分脈沖編碼原理最簡單的產生差分信號的方法是直接存儲前一次的采樣值,然后用當前采樣值減去前一次的采樣值來計算差值,并進行量化得到數字語音編碼。解碼端則進行相反的處理,恢復原始信號。其原理如下圖所示。1676.2.1差分脈沖編碼原理DPCM編碼器原理圖

1686.2.1差分脈沖編碼原理DPCM解碼器原理圖

1696.2.1差分脈沖編碼原理通過對各點信號的時域關系進行Z變換分析,我們可以得到下式:

1706.2.1差分脈沖編碼原理由于量化器所產生的量化噪聲會被累積疊加到輸出信號中,實際DPCM結構圖如下:1716.2.1差分脈沖編碼原理

1726.2.1差分脈沖編碼原理從Z變換的角度進行分析也可以得出相同的結論,從Z變換的角度觀察上圖可得式(6.7)1736.2.1差分脈沖編碼原理實際上,當前輸入的采樣值不僅與上一時刻的采樣值相關,而且還與前面的若干采樣值相關。充分利用這些相關性可以獲得更多的編碼增益。我們可以應用線性預測分析方法來實現一般形式的差分脈沖編碼。根據線性預測分析的原理,我們可以利用過去的一些采樣值的線性組合來預測和推斷當前的采樣值,并得到一組線性預測系數1746.2.1差分脈沖編碼原理采用線性預測的DPCM的一般結構圖如下圖所示:

1756.2.1差分脈沖編碼原理在保持信噪比不變的情況下,差分編碼器可以通過減少量化字長(即減少量化電平數)的方式來降低編碼速率。分析表明,1階預測DPCM的差分增益為5dB,可以減少1比特的編碼長度,即編碼速率可以降低到56Kbps。3階預測DPCM可以減少1.5~2比特的編碼長度,編碼速率可以降低到48Kbps1766.2.1差分脈沖編碼原理1776.2.2自適應差分脈沖編碼自適應差分脈沖編碼的原理:

由于語音信號的非平穩性,固定系數預測器無法保證始終是最佳的預測器,從而導致預測誤差的增大。較好的方法是在編碼過程中采用自適應技術來動態調整預測器系數。此外,使用自適應量化技術對差分信號進行量化也可以進一步降低編碼速率。一般將采用自適應量化和高階自適應預測的DPCM稱為自適應差分脈沖編碼(ADPCM)178自適應差分脈沖編碼類型:

自適應差分脈沖編碼(ADPCM)分為:前饋型ADPCM

反饋型ADPCM6.2.2自適應差分脈沖編碼179前饋型ADPCM的編碼原理如圖所示6.2.2自適應差分脈沖編碼180

6.2.2自適應差分脈沖編碼181自適應線性預測

自適應線性預測是以幀為單位進行的,根據當前幀的語音波形的時間相關性確定預測系數,以使預測誤差信號的方差最小化。

自適應線性預測分為:前向預測

反向預測6.2.2自適應差分脈沖編碼1826.2.2自適應差分脈沖編碼1832.G.726語音編碼

G.726標準提供了四種不同的數碼率選項:40Kbps、32Kbps、24Kbps和16Kbps。這些選項的語音質量相當于64Kbps的PCM編碼,并且具有良好的抗誤碼性能。

6.2.2自適應差分脈沖編碼184G.726的編碼器方框圖如下圖所示6.2.2自適應差分脈沖編碼1856.2.2自適應差分脈沖編碼

1866.2.2自適應差分脈沖編碼

1876.2.2自適應差分脈沖編碼G.726采用反饋型自適應和反向預測的方法,編碼中僅包括預測誤差信號的編碼,不包含預測系數、自適應量化器的量化間隔或增益因子等參數。解碼器的流程圖如上圖所示,其中同步編碼調整模塊的作用是防止在同步級聯情況下產生累積失真,調整PCM輸出編碼以消除后續ADPCM級的量化失真1886.2.2自適應差分脈沖編碼189G.726的解碼器方框圖如下圖所示6.2.2自適應差分脈沖編碼1906.2.2自適應差分脈沖編碼G.726采用反饋型自適應和反向預測的方法,編碼中僅包括預測誤差信號的編碼,不包含預測系數、自適應量化器的量化間隔或增益因子等參數。解碼器的流程圖如上圖所示,其中同步編碼調整模塊的作用是防止在同步級聯情況下產生累積失真,調整PCM輸出編碼以消除后續ADPCM級的量化失真。1916.2.2自適應差分脈沖編碼3.長時預測和噪聲整形

通過在ADPCM系統中引入長時預測和噪聲整形機制,可以進一步改善編碼質量。在ADPCM中,線性預測器利用之前相鄰若干樣本的采樣值來預測當前樣本的采樣值,這被稱為短時預測。實際上,對于短時預測所得到的預測誤差信號,我們可以再次進行長時預測,得到功率更小的差分信號,從而獲得更高的編碼增益

1926.2.2自適應差分脈沖編碼3.長時預測和噪聲整形

通過噪聲整形機制,可以對誤差信號進行一定的平滑處理,進一步減小編碼中的噪聲成分,提高音頻質量。長時預測和噪聲整形機制的引入使得ADPCM系統能夠更好地適應信號的特性,提供更高的編碼效率和音頻還原質量

其中,利用濁音信號的周期性進行預測的預測器函數為:

1936.2.2自適應差分脈沖編碼噪聲整形的工作原理圖1946.2.2自適應差分脈沖編碼

1956.2.2自適應差分脈沖編碼

(1)利用人耳的聽覺掩蔽效應,使噪聲譜的包絡形狀跟隨語音頻譜的包絡變化,將量化噪聲的能量集中在信號的高能量區域,例如共振峰處。(2)對噪聲譜進行整形使其符合人耳的聽覺靈敏度曲線,將噪聲能量集中在聽覺不敏感的區域內。(3)通過對量化噪聲進行低頻衰減和高頻提升,將大部分量化噪聲轉移到信號頻帶以外,從而提高量化信號的信噪比。1966.2.2自適應差分脈沖編碼1976.3.1增量調制原理6.3.2自適應增量調制原理6.3增量調制1986.3.1增量調制

增量調制(DeltaModulation,DM)是差分脈沖編碼調制的一種特殊形式。根據采樣定理,采樣頻率必須高于奈奎斯特頻率。當系統的采樣頻率遠高于奈奎斯特頻率時,相鄰采樣值之間的相關性會變得非常強,差分信號的幅值會在一個很小的動態范圍內變化,因此可以用正負兩個固定的電平來表示差分信號。在增量調制中,僅使用一個比特來量化差分信號,即只需指示極性。所采用的固定電平值被稱為量化階梯。在接收端,通過上升和下降的階梯波形來逼近語音信號。1996.3.1增量調制

基本的增量調制使用固定的量化階梯。當差分信號的幅值大于某個閾值時,量化為0;小于該閾值時,量化為1;若差分信號的絕對值小于閾值,則可以選擇0或1。通常應讓0和1交替出現。選擇適當的閾值需要考慮兩個因素:一方面,如果閾值選擇得太小,那么當語音急劇變化時會產生較大的誤差;另一方面,如果閾值選擇得太大,那么會產生較大的量化誤差。因此,選擇適當的閾值是一個權衡的問題2006.3.1增量調制

下圖為增量調制示意圖:2016.3.2自適應增量調制然而,使用固定閾值會導致一些問題,其中包括斜率過載失真和顆粒噪聲。斜率過載失真是指固定閾值導致語音信號的陡峭變化部分被截斷或失真。語音信號中的瞬時變化通常包含了重要的語音信息,而固定閾值可能無法適應這些變化。顆粒噪聲是指當固定閾值應用于語音信號時,信號被量化為離散級別,并產生離散的量化誤差。這些誤差通常以顆粒狀的噪聲形式存在于輸出信號中。由于固定閾值在整個信號中保持不變,所以顆粒噪聲的分布也相對固定,這可能會在編碼后產生噪聲感知的問題。2026.3.2自適應增量調制

為了解決固定閾值所導致的斜率過載失真和顆粒噪聲問題,可以采用自適應增量調制(AdaptiveDeltaModulation,ADM)技術。ADM的基本原理是根據信號的平均斜率來調整閾值,當斜率較大時,閾值自動增大;相反,當斜率較小時,閾值減小。這樣,閾值可以自適應地跟隨輸入波形的變化,從而將斜率過載失真和顆粒噪聲降至最小。ADM通常采用反饋自適應的方式,以避免發送額外的信息。2036.4.1LPC-10聲碼器6.4.2碼激勵線性預測編碼6.4基于線性預測編碼的聲碼器增量調制2046.4.1LPC-10聲碼器 LPC-10是一種10bit的線性預測編碼聲碼器,用于將語音信號進行壓縮和編碼,常用于低比特率的語音通信和存儲應用。2056.4.1LPC-10聲碼器6.4.1.1LPC-10發端 LPC-10發端編碼器框圖如下圖所示,原始語音輸入經過低通濾波器之后,輸入A/D變換器,然后每180個樣點分為一幀,以幀為處理單元,提取語音特征參數并且編碼傳送。分兩個支路同時進行,一個支路用于提取基音周期和清濁音校正,另一個支路用于提取聲道參數。2066.4.1LPC-10聲碼器

2076.4.1LPC-10聲碼器6.4.1.1LPC-10發端

在提取基音周期和清濁音校正支路中,使用平均幅度差函數(AverageMagnitudeDifferentFunction,AMDF)計算基音周期,經過平滑、校正得到該幀的基音周期。與此同時,對低通濾波后輸出的數字語音進行清濁音標記。在提取聲道參數支路中,先進行預加重處理,預加重濾波器的傳輸函數為:

2086.4.1LPC-10聲碼器6.4.1.1LPC-10發端

聲道濾波參數RC和增益RMS用準基因同步相位法計算。

計算聲道濾波器參數RC:采用10階線性預測分析濾波器,利用協方差法對LP逆濾波器計算預測系數,然后轉換為反射系數RC,或部分相關系數PARCOR來代替預測系數進行量化編碼。LPC分析采用“半基音同步”算法,即濁音幀的分析幀取130個樣本以內的基音周期整數倍來計算RC和RMS,清音幀則去長度為22.5的整幀中點為中心的130個樣本形成分析幀來計算RC和RMS。2096.4.1LPC-10聲碼器6.4.1.1LPC-10發端

2106.4.1LPC-10聲碼器6.4.1.1LPC-10發端提取基音周期:輸入語音經3dB截止頻率為800Hz的4階Butterworth低通濾波器,濾波后信號再經二階逆濾波。采樣頻率降低至原來的1/4,再計算延遲時間為20~156個樣點的AMDF,由AMDF的最小值確定基因周期。計算AMDF的公式為:2116.4.1LPC-10聲碼器6.4.1.1LPC-10發端清/濁音判決:利用模式匹配技術,基于低帶能量、平均幅度差函數AMDF函數最大值與最小值之比、過零率作出的。對于基因值、清/濁音判決結果用動態規劃算法:在3幀范圍內進行平滑和錯誤校正,從而給出當前幀的基音周期、清/濁音判決參數。每幀清/濁音判決結果用兩位碼表示四種狀態:00:穩定的清音;01:清音轉濁音;10:濁音轉清音;11:穩定的濁音。2126.4.1LPC-10聲碼器6.4.1.2LPC-10參數編碼在LPC-10的傳輸數據流中,將10個PARCOR系數、增益RMS、基音周期Pitch、清/濁音V/U、同步信號Sync。下表是濁音幀和清音幀的比特分配。2136.4.1LPC-10聲碼器6.4.1.3LPC-10收端

2146.4.1LPC-10聲碼器6.4.1.2LPC-10參數編碼

2156.4.1LPC-10聲碼器6.4.1.2LPC-10參數編碼

2166.4.1LPC-10聲碼器

2176.4.1LPC-10聲碼器

6.4.1.2LPC-10參數編碼2186.4.1LPC-10聲碼器

2196.4.1LPC-10聲碼器

6.4.1.2LPC-10參數編碼2206.4.1LPC-10聲碼器6.4.1.2LPC-10參數編碼

2216.4.1LPC-10聲碼器

2226.4.1.2LPC-10參數編碼3.基音、清/濁音的編碼、解碼編碼方法:按照表6.7,60個基音值用碼字重量3或4的7bitsGray碼編碼,清音/過渡幀用矢量0000000/1111111表示。解碼方法:若碼字重量為3或4時,按照表6.7解碼;若碼字重量為0或1時,則判定接受幀為清音幀;若碼字重量為7或6時,則判定接受幀為過渡幀;若碼字重量為2或5時,則判定接受幀為無效幀;最后按照表6.8的比特順序,組成發送比特流發往線路。2232246.4.1LPC-10聲碼器2256.4.1.3LPC-10收端

2266.4.1.3LPC-10收端

2276.4.1.3LPC-10收端3.語音合成用Levinson遞推算法將反射系數變換成預測系數;收端合成器應用直接型遞歸濾波器合成語音;對其輸出進行幅度校正、去加重,并變換為模擬信號,最后經3600Hz的低通濾波器后輸出模擬語音。2286.4.1.3LPC-10收端2.激勵源清音幀用隨機數作為激勵源;濁音幀用周期性沖擊序列通過一個全通濾波器來生成激勵源;語音合成濾波器輸入激勵源的幅度保持恒定不變,輸出幅度受RMS參數加權。2296.4.1.3LPC-10收端1.參數插值原則對數面積比參數值每幀插值兩次;RMS參數值在對數域進行基音同步插值;基音參數值用基音同步的線性插值;在濁音和清音過渡時對數面積比不插值。230LPC-10收端編碼器框圖2316.4.2碼激勵線性預測編碼

碼激勵線性預測(CodeExcitedLinearPrediction,CELP)編碼技術是一種有效的中低速率語音壓縮編碼技術,采用分幀技術進行編碼。CELP以碼本作為激勵源,從碼本中搜索出來的最佳碼矢量乘以最佳增益,代替LP余量信號作為激勵信源。CELP具有速率低、合成語音質量高、抗噪性強及多次音頻轉接性能良好等優點。2326.4.2碼激勵線性預測編碼6.4.2.1CELP模型

基于合成分析過程的CELP語音編碼模型如圖6.13所示。為了獲得與原始語音信號的最佳匹配,CELP編碼模型需要頻繁地修正時變濾波器參數和激勵參數。系統的分析過程是按幀分序進行的,即首先確定時變濾波器的參數,然后確定固定激勵參數。分析幀的長度和修正速率決定了編碼方案的比特率。233CELP語音編解碼模型2346.4.2碼激勵線性預測編碼6.4.2.1CELP模型

此編碼方案的基本步驟如下:①初始化短時合成濾波器和基音合成濾波器的歷史(通常初始化為零值或低電平隨機噪聲)。②緩存一幀語音信號,然后對這幀語音信號進行線性預測分析,確定一組LPA系數。③利用已經確定的LPA系數和線性預測誤差濾波器A(z),計算未量化的殘差信號。④為了有效地確定激勵參數,將LPA幀分為幾個子幀。2356.4.2碼激勵線性預測編碼6.4.2.1CELP模型

⑤對于每個子幀,首先用開環方法或閉環方法確定基音預測參數。一旦確定了基音預測器參數,則將基音合成濾波器和短時合成濾波器組合在一起形成一個級聯的濾波器。其次,用激勵碼書中的某一矢量去激勵這個級聯濾波器,得到合成語音,再計算合成語音和原始語音之間的誤差,經感覺特性進行加權后,選取均方誤差最小的激勵矢量作為最佳矢量。⑥借助于濾波器的初始記憶內容,將最佳激勵信號通過級聯濾波器產生合成語音。⑦對于每個子幀重復第②-⑥步。2366.4.2碼激線性預測編碼6.4.2.2CELP語音編碼器實例

2376.4.2碼激線性預測編碼6.4.2.2CELP語音編碼器實例

自適應碼本和固定碼本的搜索過程在本質上是一致的,為了減小計算量,一般采用兩級碼本順序搜索的方法。第一級自適應碼書的搜索目標是加權LP余量信號,第二級固定碼書的搜索目標是第一級搜索的目標矢量減去自適應碼本搜索得到的最佳碼矢量激勵綜合加權濾波器的結果238

兩級碼書結構的CELP語音編解碼模型2396.4.2.2CELP語音編碼器實例

1.FS10134.8kb/sCELP FS10134.8kb/sCELP是近幾十年來最成功的語音編碼,它用線性預測提取聲道參數,用一個包含許多典型的激勵矢量的碼書作為激勵參數,每次編碼時都在這個碼書中搜索一個最佳的激勵矢量,這個激勵矢量的編碼值就是這個序列的碼書中的序號。由于FS10134.8kb/sCELP引入了矢量量化,其激勵來自一個碼書,因此其復雜度較高,但它能在4.8kb/s以上的碼率獲得較高質量的語音。它的技術已被許多語音編碼標準所采用。240

FS10134.8kb/sCELP語音編解碼模型241

FS10134.8kb/sCELP比特分配2426.4.2.2CELP語音編碼器實例

2.G.72816kb/sLD-CELP G.72816kb/s低時延碼激勵線性預測編碼是世界上第一個標準化參數語音。這種算法以CELP算法為基礎,采用后向自適應線性預測、50階合成濾波和短激勵矢量等改進方法,達到了低時延的目的。G.72816kb/sLD-CELP短時延的要求決定了方案必須采用后向自適應方法,即從已處理的語音信號中提取自適應參數。243

LD-CELP方案的編、譯碼器原理框圖2446.4.2.2CELP語音編碼器實例

3.IS548kb/sVSELP

矢量和激勵線性預測編碼是CELP算法的一個特例。這種算法采用三個碼書作為激勵信號,其中兩個是隨機碼書,一個為自適應碼書,最終的激勵為三個激勵矢量的和。TIA/EIA選擇8kb/sVSELP算法作為北美TDMA數字移動電話語音編碼標準,它是過渡標準IS54的一部分。245

IS548kb/sVSELP的編、譯碼器工作原理框圖246

IS548kb/sVSELP編碼方案比特分配2476.4.2.2CELP語音編碼器實例

4.JDC3.6kb/sPSI-CELP

這個編碼器被RCR標準化,目的是使日本TDMA個人數字移動系統的容量增加一倍。基音同步更新碼激勵線性預測在傳統CELP的基礎上對激勵作了進一步的改進。248

JDC3.6kb/sPSI-CELP編碼器原理框圖249

JDC3.6kb/sPSI-CELP編碼方案比特分配2506.4.2.2CELP語音編碼器實例

5.G.7298kb/sCS-ACELP 8kb/s共軛結構一代數碼激勵線性預測編碼語音編碼是基于CELP編碼模型的。251

G.7298kb/sCS-ACELP的編、譯碼器工作原理框圖252

G.7298kb/sCS-ACELP編碼方案比特分配1.請簡要說明語音編碼的目標是什么?2.請簡要說明語音編碼可以根據編碼方法的不同分為哪幾類?3.請簡要說明均勻量化PCM的步驟有哪些?能否用代碼實現。4.請簡要分析均勻量化PCM的量化誤差與哪些因素有關?5.請簡要說明非均勻量化PCM的原理?253練習題6.請簡要分析與均勻量化相比,非均勻量化有哪些優點和缺點?7.請簡要說明差分脈沖編碼的原理?8.請簡要分析差分脈沖編碼有哪些優點?9.請簡要分析與增量調制相比,自適應增量調制有哪些優點?10.在實施LPC分析之前為什么要進行預加重?11.反射系數與部分相關系數什么關系?254練習題

第7章聲音合成與轉換

7.1語音合成方法7.2漢語基于音節的規則合成方法7.3語音轉換方法7.4語音轉換評價指標7.5.語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論