




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于短時和長時特征的語音情感識別研究11基于短時特征的情感識別111特征提取許多研究者認為,語音的韻律特征是說話者情感狀態的一個重要指示。一些對情感語音的研究表明基音頻率、能量和共振峰頻率是區分某些情感的有效特征。本文共研究了五組語音短時特征,包括基音頻率(Fo)、短時能量、前三個共振峰頻率(F到F)、兩個Mel頻率倒譜系數(MFCC)和五個Mel頻率子帶能量(MBE131到MBE)以及它們的一階和二階導數。短時分析的窗長為20ms,幀移10ms,5窗函數為漢明窗。基頻提取使用短時自相關方法,并通過一個3階的中值濾波器與內插得到平滑的基頻包絡。此外,為了避免不同性別的人基頻差別太大,對每人的基
2、頻都進行了去均值處理。共振峰頻率的估計使用文獻5中提出的方法。為了提取子帶能量,通過快速傅立葉變換(FVT)方法估計每幀的短時譜,并將短時譜通過五個在Mel尺度上均勻分布且頻率范圍在60Hz7600Hz內的濾波器。計算每個濾波器的對數平均能量。便得到五個子帶能量參數MBEl到MBE5。試驗表明,使用上述所有特征用于情感識別時存在冗余信息,并不能達到最好的識別效果。岡此必須選擇一個最優子集作為特征矢量。通過文獻6所述的特征選擇方法,最后確定所用的每一幀短時特征(STF)矢量為:d2FdFd2MBEd2MBEdFSTF=,5i,g,比Iidt2dtdt2dt2dt其中f表示第f幀,五個特征分別為:
3、F的二階導數,F的一階導數,MEB的005二階導數,MEB的二階導數及F的一階導數。這一特征矢量充分地利用了語音41中基頻輪廓的變化及其極值分布規律。高頻率子帶能量特性以及第一共振峰的變化特征。為了避免由于不同語言、不同人的區別以及錄音音量的差別所引起的某些數值太大或者太小的情況,所有的參數通過線性縮放,將其范圍限制在0,100。12基于長時特征的情感識別12.1特征提取除了上述參數外,頻譜的動態特性也是語音情感的一個重要指示。本文從語音在頻率尺度上的動態特性出發研究情感的識別,提出了一個稱為美爾能譜動態系數(MESDC)的特征矢量MESDC的計算過程如圖所示:首先通過快速傅立葉變換(FFT)
4、方法估計每一情感短句的長時譜.再令其通過N個均勻分布在Mel頻率尺度上的濾波器。計算每一個濾波器輸出的對數平均能量(En(i),i=l,,N)。之后求En(i)的一階及二階差分。直邀叫、淤E7i(j卡1、一hE叫、W“,7V-2后聯立得到MESDC的特征矢量:ME筑就口En(W)AEn(l)遠glj隔丹心_2)這里N設為12.在輸入到分類器之前矢量中的每一參數都要經過了一次線性歸一化處理。謔破器1卜對甲iME矢atjwiMT能1*1-Ar長時語音特征在說話人識別技術上的應用1長時時頻特征的提取與處理技術11特征提取算法本方法框架上采用Kenny提出的架構,把連續有基頻值的濁音段提取出來,在每一
5、個段內,通過能量曲線的谷點,切分出類似音字(phoneme)的單元,然后,在每一個單元內部,把基頻曲線,時域能量曲線,分別利用6階多項式擬合得到6維的參數,與單元的長度一起構成13維的特征因此,每一個單元提取出一幀特征,這種時頻特征的幀數大大減少。但是由于描述的是長時的信息,可以描述幀與幀之間的聯系,而短時的MFCC系數差分特征恰恰描述不了這種長時的變化趨勢,因此這種長時時頻特征的系統與基于MFCC的系統融合在一起會進一步提高整體系統的性能本方法的不同之處在于,不僅僅擬合基頻和時域能量曲線,還擬合了前4個共振峰曲線和前10個諧波能量的曲線。因為,我們認為,每個人的共振峰頻率長時變化趨勢也可以在
6、一定程度上反應說話人的信息,而且每個諧波能量的曲線變化信息不僅僅反應了被共振峰調制的諧波能量變化趨勢,也反應了共振峰的強弱,這恰恰彌補了共振峰頻率不能提供的幅度信息。在實驗中,我們融合諧波能量曲線特征和共振峰頻率曲線特征在一起來提高系統的性能。基于長時性特征的音位屬性檢測方法許友亮張連海屈丹牛銅基于層級TDNN的特征提取系統由2層TDNN構成,低層的TDNN對短時特征進行分類,其輸入特征為幀MFCC參數,輸出為音素后驗概率;高層TDNN以低層TDNN輸出為觀測特征,考慮更長時段內的信息,其輸入特征為2+1幀,時長通常可達到200ms甚至更長,使得高層MLP能夠獲得音素、字詞或詞間的信息。另外,由于低層TDNN的輸出為0-1之間的概率值,為了使該分布高斯化和離散化,需對其進行非線性變換,包括log運算或PCA降維等。由于高層TDNN的輸入考慮到了長時段內的信息,使得MLP在訓練過程中“學到”了語音信號間的相關性;由于高層MLP考慮的信息更長,在某種意義上起著“平滑”的作用,相對于低層TDNN的檢測結果,高層MLP輸出的插入錯誤明顯減少。WhN兩屮i兀亠佩爲總加和幀TDNN音位厲注陪鑿擬舉圈2越于jgftttwas*位鼻性提取算扶時間延遲神經網絡(TDNN)TDNN的最大特點是在MLP的隱含層引入了時間延遲因子
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論