


全文預覽已結束
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘要 隨著信息技術的高速發展,人類對計算機的依賴性不斷增強,因 此,人機的交互能力越來越受到研究者的重視。語音是眾多信息載體 中具有最大信息容量的信號,具有最高的智能水平。當今語音信號處 理研究的熱點,己從傳統的只著眼于詞匯傳達的準確性,到了研究語 音信號的情感表達。因此,本文從情感語音的特征級出發,對l p c ( 線 性預測) 系數的情感建模進行了研究。 本文針對當前缺乏語音情感特征的發聲模型方面的專門研究的 現狀,通過探索情感特征與l p c 系數之間的映射關系,提出建立l p c 系數的情感模型的新方案。本文在中科院情感語音庫的基礎上分別建 立高興、憤怒、悲傷及中性四種情感數據庫;研究情感語音的音質特 征參數,得到上述四種情感的共振峰統計規律;重點設計并實現基于 高斯混合( g m m ) 模型的情感l p c 系數的建模方案,通過采用不同情 感語音的l p c 特征矢量,結合動態時間規整技術( d t w ) 、期望最大 化算法( e m ) 和最小均方誤差準貝, t j ( m m s e ) ,對模型進行訓練和參數估 計,最終獲得高興、憤怒、悲傷三種情感對中性語音的l p c 系數映射 規則函數,完成對情感l p c 參數的建模。并設計實驗測試方案,采用 板倉一齋田準則( 工s ) 對通過映射函數得到的l p c 系數和標準中性語音 的l p c 系數進行譜失真測度的計算,仿真實驗結果表明,建立的情感 模型有效的表征了不同情感對l p c 系數的影響。 本文提出的基于高斯混合模型的情感l p c 參數的聲學建模方法, 是情感語音信號處理領域的一個新的研究方法,為情感給語音合成、 識別等帶來的影響研究提供了新的思路和解決方案。 關鍵詞:情感語音建模,l p c 系數,高斯混合模型,e m 算法 a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,h u m a n d e p e n d e n c e o n c o m p u t e r i s g r o w i n g t h e r e f o r e ,h u m a n c o m p u t e r i n t e r a c t i o nc a p a b i l i t i e sg e tm o r ea n dm o r ea t t e n t i o no fr e s e a r c h e r s v o i c e h a st h el a r g e s ti n f o r m a t i o nc a p a c i t yi nm a n yi n f o r m a t i o nc a r d e r ,w i t ht h e h i g h e s tl e v e lo fi n t e l l i g e n c e t r a d i t i o n a lv o i c ep r o c e s s i n gs y s t e m sf o c u s o nt h ea c c u r a c yo fv o i c eo n l y ,i g n o r i n gt h ee m o t i o n a lf a c t o r sc o n t a i n e di n t h ev o i c es i g n a l t h e r e f o r e ,t h i sa r t i c l es t u d i e do ne m o t i o n a ls p e e c h m o d e l i n go fl p cc o e f f i c i e n t s a c c o r d i n gt os t a t u so fd e f i c i e n c yo fs t u d yo ne m o t i o n a ls p e e c h m o d e l i n g ,t h ep a p e rp r e s e n t s an e wm e t h o do fe m o t i o n a l s p e e c h m o d e l i n go fl p c c o e f f i c i e n t s t h e p a p e r e s t a b l i s h e df o u rk i n d so f e m o t i o n a ls p e e c hd a t a b a s e i n c l u d i n gh a p p y ,a n g r y ,s a da n dn e u t r a l e m o t i o nr e c o r d e db yc h i n e s ea c a d e m yo fs c i e n c e s ;r e s e a r c h e da c o u s t i c c h a r a c t e r i s t i cp a r a m e t e r s ;g o tr e s o n a n c ep e a ks t a t i s t i c a lr e g u l a r i t yo f d i f f e r e n te m o t i o n ;d e s i g n e da n dr e a l i z e dt h en e wm o d e l i n gs c h e m eo f e m o t i o n a ll p cc o e f f i c i e n t i tu s e dd i f f e r e n te m o t i o n a ll p cf e a t u r ev e c t o r , c o m b i n e dw i t ht h ed y n a m i ct i m ew a r p i n gt e c h n o l o g y ,e ma l g o r i t h ma n d m m s ec r i t e r i o n ,f i n a l l yg o tl p cc o e f f i c i e n tm a p p i n gr u l ef u n c t i o no f t h r e ek i n d so fe m o t i o n a ls p e e c ht on e u t r a ls p e e c h ;a n dc o m p l e t e dt h e e m o t i o n a l l p cp a r a m e t e rm o d e l i n g a l s o t h e p a p e rd e s i g n e d t h e e x p e r i m e n t a lt e s tp l a n ,c a l c u l a t e ds p e c t r u md i s t o r t i o nm e a s u r eb e t w e e n t h es t a n d a r dn e u t r a lv o i c el p cc o e f f i c i e n ta n dl p cc o e f f i c i e n tw h i c hg o tb y m a p p i n gf u n c t i o nu s i n gi sd i s t a n c e s i m u l a t i o nr e s u l t s s h o wt h a tt h e e m o t i o n a l s p e e c h m o d e lc a n e f f i c i e n t l y c h a r a c t e r i z et h ed i f f e r e n t e m o t i o n a le f f e c to nl p cc o e f f i c i e n t t h en e wm e t h o do fm o t i o n a ls p e e c hm o d e l i n go fl p cc o e f f i c i e n t s t h a tt h i sp a p e rp r e s e n t e di san e wm e t h o do fe m o t i o n a ls p e e c hs i g n a l p r o c e s s i n gf i e l da n dp r o v i d e san e wi d e aa n ds o l u t i o nt ot h er e s e a r c ho f t h ei n f l u e n c ef o re m o t i o n a ls p e e c hs y n t h e s i sa n dr e c o g n i t i o n k e yw o r d s :e m o t i o n a ls p e e c hm o d e l i n g ,l p cc o e f f i c i e n t s ,g m mm o d e l , e m a l g o r i t h m 目錄 摘要i a b s t r a c t i i 第一章緒 論1 1 1 課題背景和意義1 1 2 情感特征參數的研究現狀2 1 3 情感建模的研究現狀_ 4 1 4 課題主要研究內容5 第二章情感語音數據庫7 2 1 情感語音庫7 2 1 1 情感語音的定義7 2 1 2 情感語音的分類7 2 1 3 情感語音庫的分類8 2 1 4 情感語音庫介紹9 2 2 情感語音數據庫的建立1 0 2 3 本章小結11 第三章情感語音的音質特征分析1 3 3 1 語音信號的預處理1 3 3 1 1 預處理1 3 3 1 2 端點檢測1 5 3 2 線性預測系數l p c 1 8 3 2 1 線性預測基本原理1 8 3 2 2 線性預測系數的計算1 9 3 3 語音情感的音質特征分析2 1 3 3 1 情感對音質的影響2 l 3 3 2 共振峰分析2 2 3 4 常見的語音信號建模方法2 3 3 4 1 線性多變量同歸法2 3 3 4 2 神經網絡法2 4 3 4 3 隱馬爾可夫模型法2 5 3 4 4 高斯混合模型法2 5 3 5 本章小結2 6 第四章基于高斯混合模型的情感l p c 系數研究2 7 4 1 高斯混合模型的基本概念2 7 4 1 1 高斯混合模型的描述2 7 4 1 2 高斯混合模型的參數設置2 8 4 1 3 初始參數設置2 9 4 2 建模的構架及流程2 9 4 3 情感l p c 參數的提取3 0 4 3 1 預處理3 0 4 3 2 參數的提取和仿真3 3 4 4 情感l p c 參數模型的建立3 6 4 4 1g m m 模型的參數訓練3 6 4 4 2 映射規則3 7 4 5 本章小結3 8 第五章實驗分析與評價4 0 5 1 實驗平臺4 0 5 2 實驗方案4 0 5 3 實驗結果與評價4 l 5 4 本章小結4 4 第六章總結與展望4 5 參考文獻4 7 附勇匙5 1 致謝5 5 學位期間主要的研究成果5 6 碩士學位論文 第一章緒論 1 1 課題背景和意義 第一章緒論 隨著科技的高速發展,計算機在人們的生活中扮演著越來越重要的角色。所 以,人與機器間實現自然的、智能化的交流是人們追求的理想【1 】。人機交互發展 的目標就是計算機智能化的實現,即計算機可以根據交流對象的情感狀態及周圍 的環境等因素,自適應地調整自身的情感狀態,從而為交流對象提供更為友好的 交流環境。在所有信息載體中,語音具有最大信息容量,是人們相互間交流的最 自然的方式,具有最高的智能水平【2 】。語音中除了自身包含的文字信息外,同時 還包含了情感和情緒等對于正確理解話語非常重要的信息。內容相同的語音,可 以由于說話者的情感不同,話語給聽者傳遞的信息就不同。 現階段對于情感語音的研究無論是國內還是國外都還處于一個起步階段,考 慮到情感和態度對語音所引起的變化對語音合成、語音識別、說話人識別的影響 較大,語音的情感研究逐漸引起人們的重視。在語音處理和人工智能等領域中, 對情感信息的研究有著十分重要的意義。 然而,現有的語音處理研究中還沒有很多考慮到語音信號中包含的情感信 息,多注重于準確的表達語音的文字信息。另外,傳統的語音信號處理都是對中 性語音進行建模,往往忽略了包含在語音信號中的情感因素,其實情感變化對語 音處理的各個領域,如語音合成、語音識別、說話人識別等都產生了巨大的影響 【3 訓。當說話人在不同情感狀態間轉變時,由于說話人情緒的改變引起了發音方 式的變化,使得基于中性訓練語音的說話人識別系統的性能急劇下降【5 。7 】。隨著 人機交互對系統友好性與自然性要求的不斷提高,如何解決說話人自身的變異, 如情感變異帶來的系統性能的下降,是語音信號領域中一個有待解決的重要問題 【8 - l o 0 面對該問題,解決方案從底層到高層可以概括為3 類:( 1 ) 特征級,現階段 的研究表明,語音之所以能夠表達情感,是因為其中包含能體現情感特征的參數。 情感的變化就是通過特征參數的差異而體現出來。( 2 ) 聲學模型級,這類方法主 要是根據語音信號的特點在特征和聲學模型訓練上作調整,但由于目前語音情感 分析的研究還處于較低的發展水平,至今為止對情感信息的建模以及工學處理方 法的研究成果比較少。( 3 ) 語言模型級,即利用高層知識在語言模型上作的調整。 現有的語音建模方法還沒有將語音的情感信息考慮到語音模型中。其實,語 音模型包含了情感因素,情感的變化會導致語音參數的明顯變化,從而不利于語 音識別等語音處理的相關應用。針對上述問題,本課題將語音情感特征考慮到語 碩士學位論文 第一章緒論 音建模中,通過對含語音情感的發聲模型進行建模,有利于語音識別、說話人識 別系統的性能。此外,本課題的研究對情感語音合成、復雜聲音環境中說話人語 音信號的提取、分離也都有著重要的意義。 1 2 情感特征參數的研究現狀 心理學和韻律學研究結果表明,說話者的情感在語音中最直觀的表現就是韻 律特征和語音質量特征的變化。韻律特征主要有音調、音強和語速等特征n ;音 質特征如呼吸聲、明亮度特征( 低頻能量和高頻能量的比值,用以反映語音的清 亮特性) 和喉化音等。因此對語音情感的研究也是普遍從韻律特征和音質特征開 始,尤其是韻律特征,是目前主要的語音情感特征的研究參數n 引。表1 1 中列出 了目前較常用的特征參數。 表卜1 常用的情感特征參數 情感特征參數參數意義 p i t c ha v e r a g e p i t c hr a n g e i n t e n s i t y p i t c hc h a n g e f 1a v e r a g e f 1r a n g e 單位時間內的音節數即語速 基音頻率的均值 基音頻率的變化范圍 語音信號的強度,振幅均值 基頻的平均變化率 第一共振峰的均值 第一共振峰的變化范圍 早在1 9 7 2 年,w i l l i a m s 發現人的情感變化對語音的基音輪廓有很大的影響, 這是國外最早的語音情感方面的研究之一。h i o r y af u j i s a k i 于1 9 8 4 年最早提出了 針對喉部生理運動特征的f u j i s a k i 基頻模型n3 1 。該模型能夠很好地逼近基頻輪廓, 目前已經用于日語、漢語、英語等多種語言。雖然,基音攜帶了重要的情感信息, 但基音檢測較困難。a b e l i n 1 4 】等用了語速、振幅、基音的混合語音特征參數,研 究表明:相似特征的情緒具有相似的聲學表現,如生氣和強勢的聲學表現為短時 長,強音強,恐懼和害羞的聲學表現都是長時長,弱音強,難過和害羞的句子內 都有較長的間斷。語音韻律特征的缺點是難以準確提取,只能區別各種基本情感 1 5 1 o 音質是指語音的聽覺質量,目前研究的主要有共振峰參數和聲門波參數n 6 1 2 碩士學位論文第一章緒論 等。音質類參數和聲道的形狀變化有關。對于情感語音,發音人會適當地改變聲 道形狀、肌肉張力等參數以達到表達某種情感的目的。共振峰口7 3 是反映聲道特性 的一個重要參數,因為不同情感的發音可能使聲道有不同的變化,所以能夠預料 到不同情感發音的共振峰的位置不同。聲門波參數的特性不僅對語音音質有影 響,而且對于語音情感色彩的調整更是意義重大n8 | 。音質特征是其情感表達的一 個非常重要的方面。利用音質特征進行語音情感研究是近年來眾多學者都在嘗試 的思路之一。 綜合現有的研究,韻律特征( 基頻、能量、語速等) 與語音情感的感知具有明 顯的關系,并且也被廣泛關注,這些語音特征參數也較容易分析,因此成為目前 語音情感識別中所用的主流特征。相反,語音信號的譜特征,包括共振峰結構、 平均譜的總體結構等卻較少被關注,這些特征都是和語音信號的音質相關的。這 些特征和情感感知不具有明顯的顯式關系,并且與時間強烈相關而難于提取。然 而,有研究成果表明加入音質特征對于區分那些韻律特征比較相近的情感具有明 顯的幫助。綜上所述,韻律特征和音質特征共同影響著語音情感的形成。 當前通過對表1 1 的特征參數進行了大量的研究之后,人們對它們在各種情 感下的表現規律有了相似的認識,這些規律已經應用于許多情感語音處理的研究 中。此外,有些研究還發掘出了一些其它的情感特征參數,比如l p c 參數u 引、 基音的標準差、前三個共振峰峰值等等啪1 。 線性預測分析是當前最有效的語音分析技術之一,在語音編碼、語音合成、 語音識別和說話人識別等語音處理領域中得到了廣泛的應用。語音線性預測的基 本思想是:一個語音信號的抽樣值可以用過去若干個取樣值的線性組合來逼近。 通過使實際語音抽樣值與線性預測抽樣值的均方誤差達到最小,可以確定唯一的 一組線性預測系數。 采用線性預測分析不僅能夠得到語音信號的預測波形,而且能夠提供一個非 常好的聲道模型。由l p 分析得到的l p c 參數可以作為語音識別、語音合成的重 要參數之。 如果將語音模型看作激勵源通過一個線性時不變系統產生的輸出,那么可以 利用線性預測分析對聲道參數進行估值,以少量低信息率的時變參數精確地描述 語音波形及其頻譜的性質。此外,線性預測分析還能夠對共振峰、功率譜等語音 參數進行精確估計。 l p c 系數作為線性預測分析的基本參數,是對聲管模型的一種描述,情感變 化必將引起聲管的形變,這將導致l p c 參數隨情感發生變化,但它在各種情感 語音下的表現規律還在深入的研究中。 碩士學位論文 第一章緒論 1 3 情感建模的研究現狀 情感建模既是情感心理學研究者追求的目標,也是情感計算研究者的期望。 合理的情感模型應該不僅能夠正確描述情感特征,而且應該適合于情感計算衛u 。 目前有部分學者在情感建模方面做了初步研究,其中一些是完全從心理學角度建 立的定性模型,此外也有一些利用心理學研究成果建立的可計算的情感數學模 型。 g c r s h e n s o n 提出了一種基于多值邏輯( 即模糊邏輯) 的情感模型瞳2 l 。他用三個 二值邏輯:l o v e h a t e 、j o y g r i e f 、h a p p y s a d n e s s 作為三組基本情感,構建了一個三 維情感空間模型。 谷學靜等人在分析人類情感表現特點的基礎上,提出了一種基于h m m 情感 模型乜3 j 。該模型將人類的情感過程視為兩層的隨機過程,h m m 的觀測值對應人 類情感表現,而隱含狀態對應人類的心情,通過調整模型的初始參數,能夠構建 具有不同性格特征的心理模型。他們還提出了情感熵的概念,將其作為構造和評 價虛擬人物不同個性的參數指標。 y c h e l a 和t h e 則提出了基于粗集理論的情感計算模型瞳利。在這個模型中, 他們利用情感類別將情感空間劃分為有限個等量集合,用粗集來表示這些情感集 合。并用馬爾可夫鏈表示粗集的混合矩陣,描述人類情感狀態的變化趨勢。 v a nk e s t e r e n 等人針對外界刺激建立了一個分布式情感模型乜5 1 。整個分布式 系統把特定的外界刺激轉換成與之相對應的情感狀態,過程分為兩個階段:第一 階段評價事件的情感意義,這由事件評估器完成,針對每一類相關事件,分別定 義一個事件評估器,當事件發生時,先確定事件的類型和事件信息,然后選擇相 關事件評估器進行情感評估,并產生量化結果e w ( 情感脈沖向量) ;第二階段對 e w 歸一化得到n e w ,通過e s c ( 情感狀態估計器) 計算情感狀態。事件評估器、 e i v 到n e w 及e s c 均采用神經網絡實現。 f u j i s a k i 模型瞳剛最早由h i o r y af u j i s a k 在1 9 8 4 年提出,用于建立日文的基頻 模型,后來又推廣到其他語言,比如英語、德語、普通話、泰語等。f u j i s a k i 模 型針對全句建立數學模型,它的基本思想是認為一句話的語音基頻是由三個部分 構成的:( 1 ) 基頻直流分量;( 2 ) 以聲帶一次激勵結果形成的局部基頻形狀;( 3 ) 跨越多 個局部的基頻整體趨勢瞳7 1 。該模型以生理學為基礎,是一種利用喉部結構和喉部 結構的相互作用來定量描述f o 生成和控制機制的模型。模型利用了重疊組織的 方法很好的描繪出了語句中這種下傾的走勢,通過對于語句中每個需要的時間點 計算f 0 值,模型參數至少要在一個音節或韻律詞內保持恒定,模型組件重疊后 生成的平滑曲線適合于模擬自然的f o 曲線。f u j i s a k i 模型從生理上、聲學特性上 以及韻律控制上對語調做出了清楚的描述。 4 碩士學位論文第一章緒論從以上的介紹中可知,現有的關于情感建模的研究大多還是集中于心理學層面和理論層面。關于有針對性的適合于語音情感的建模方法的研究目前還很少,甚至當前沒有含語音情感特征的發聲模型方面的專門研究。1 4 課題主要研究內容本文針對當前缺乏語音情感特征的發聲模型專門研究的現狀,通過探索情感特征與l p c 系數之間的映射關系,提出了建立l p c 情感語音模型的新思路和新方法。該方法分別建立高興、憤怒、悲傷及中性四種情感下的情感語音庫,采用g m m 模型,將中性語音和情感語音的l p c 特征矢量作為聯合矢量,根據動態時間規整技術、e m 算法和m m s e 準則,對模型進行訓練和參數估計,最終獲得不同情感狀態的語音對中性語音的l p c 系數映射函數,完成對情感l p c 參數的建模。設計了實驗測試方案,采用i s 距離對通過映射函數的得到的l p c 系數和標準中性語音的l p c 系數進行性能比較,從而驗證了模型的有效性。下面介紹論文的安排:第一章緒論。主要介紹課題背景和研究意義,情感語音特征參數和情感語音建模的發展現狀以及本文主要研究內容和論文安排。第二章情感語音數據庫。確定了本課題所采用的情感分類方法和情感語音庫一中科院錄制的情感語音庫。分析了情感語音庫的建立規范,并根據本文的研究內容和方案,在中科院情感語音庫的基礎上選擇了和確立了本文采用的情感語音數據庫。第三章情感語音的音質特征分析。分析研究各種情感下語音的音質情感特征參數的規律。作為語音信號分析和處理的前提和基礎,本章首先對預處理,包括分幀、預加重、端點檢測的原理和算法進行了研究?;诋斍叭狈φZ音情感特征的發聲模型方面的專門研究的現狀,本文提出了l p c 參數的情感特征分析和建模的新思路。因此本章還分析了經典的線性預測技術和l p c 參數的提取方法。在總結現有的對語音的音質情感特征參數的研究成果基礎上,本章研究了共振峰參數在高興、憤怒、悲傷和中性狀態下的規律,發現其受說話人和文本的影響較大,但是還是有一定的共性。最后,本章研究了幾種常見的建模和研究方法,為下一章節的研究與分析奠定了理論基礎。第四章基于高斯混合模型的情感l p c 系數研究。研究了g m m 模型的基本結構、參數設置的方法。給出了訓練的基本流程和框架。本章采用g m m 模型,將中性語音和情感語音的l p c 特征矢量作為聯合矢量,根據動態時間規整技術、e m 算法和m m s e 準則,對模型進行訓練和參數估計,最終獲得不同情感狀態的語音對中性語音的l p c 系數映射函數,完成對情感l p c 參數的建模。 碩士學位論文第一章緒論第五章實驗分析與評價。設計了實驗測試方案,采用i s 距離對通過映射函數的得到的l p c 系數和標準中性語音的l p c 系數進行性能比較,從而驗證了模型的有效性。第六章結束語。首先對本文所做的工作進行了總結,說明了本文的創新點,最后對下一步的研究工作進行了展望。6 碩士學位論文第二章情感語音數據庫第二章情感語音數據庫情感語音研究的基礎是建立高質量的情感語音庫,只有建立高真實感、大規模的情感語音數據庫才有可能從事情感語音的研究。情感語音數據庫為情感語音的研究提供了大量的分析數據及訓練語料。2 1 情感語音庫2 1 1 情感語音的定義情感是根據所處環境由主觀沖動引起的較強的心理狀態、生理狀態,能夠引起的表現主要在語音、表情以及行為上。對于情感的產生機理,盡管研究者們做了很多的研究工作,如今對于情感仍然沒有被廣泛認同的定義。不同的研究方法和目的會有不同的情感機理的表現形式。目前有許多研究情感的學者對情感的正確定義進行了研究,通常認為情感是由思想和外部事件引起的生理變化、行為及主觀體驗組成,是人們相互之間交流的信息。k l a u ss r 乜8 3 指出情感同立場、態度和情緒是不相同的,盡管它們之間存在著一定的聯系。一般來說,態度與情感是不容易區分的,而o h a l a 砼鮑則指出情感與態度間存在本質的區別,說話者在對話中的目的即是說話者的態度,說話人對所處環境和心理狀態的反映則是情感。兩者中,態度的主動性更強,情感則比較被動。從心理學角度上,c o r n e l i u s 啪1 把情感分成了六種:高興,悲傷,生氣,厭惡,憤怒和驚訝。憤怒包括了惡狠狠的冷怒和“怒發沖冠”的怒。k l a u ss r b 用心理學中的高低喚醒度來表達感情狀態的強烈程度。高喚醒度( 1 l i g ha r o u a s l ) 是指表現較豐富的感情,可以使說話者表現出強烈感情的語音,而低喚醒度( 1 0 wa r o u s a l ) 的情感表現比較弱,在發音中沒包含較多的感情。各種情感有各自的喚醒度范圍,如怒發沖冠的喚醒度較高,而羞愧和悲傷的喚醒度較低。情感語音處理中一般選用較為典型的情感,如高興、恐懼、憤怒和悲傷,也有高興、憤怒、悲傷、恐懼和厭惡等刳。b e r l i n 科技大學的通訊科學研究所錄制了包含中立、高興、憤怒、悲傷、厭惡、恐懼和厭煩的情感語音庫口3 i 。2 1 2 情感語音的分類在對情感語音信號進行研究之前,要采用某些標準對語音的情感進行合理有效的分類。與情感的定義一樣,目前對情感的分類也沒有比較統一的認識,因此具體如何分類可以根據研究的特定目的來決定。情感的分類的粒度、精確度在很7 碩士學位論文第二章情感語音數據庫高興一,一、贊網弋期望(雷寨:點) 恐懼i 、自然暇點,麟、- 一鼢、- 一巴。厭惡一瑟傷表2 1f o x 的情感三級分類模型2 1 3 情感語音庫的分類情感語音庫的分類主要依據獲得情感語音數據的不同途徑,常見的三種情感語音庫類型有啪1 :( 1 ) 自然產生的情感語音:( 2 ) 表演所得的情感語音;( 3 ) 由情感8 碩士學位論文第二章情感語音數據庫引導產生的情感語音。各種類型的情感語音庫各有優缺點。選擇情感語音庫時,需要根據我們情感研究的方法、目的、應用需求以及一些客觀條件等選擇適合的情感語音庫。1 自然產生的情感語音自然產生的情感語音具有最高的可信度,但是收集起來非常困難。自然情感語音通常在說話者不知情時錄音,從而達到收集情感語音的目的。因為說話者對收集情感語音是不知情的,所以說話者處在非常自然的情況下用語言來達自己的情感。然而,因為說話者對采集情感語音的不知情,引出了版權等一系列法律相關的問題。在使用自然產生的情感語音之前,需要對這類情感語音進行分類。將自然產生的情感語音合理分類是比較困難的,因為目前情感的分類還是不確定的,根據不同的研究者及研究目的分類也有差別。自然產生的情感語音庫有l e e d s r e a d i n ge m o t i o ni ns p e e e hc o r p u s ,b e l f a s td a t a b a s e ,s u s a sc o r p u s 及j s td a t a b a s e 等。2 表演所得的情感語音雖然自然產生的情感語音具有最高的自然度,但是收集起來太困難,因此,情感語音的學者們請若干個演員或播音員模擬各種情感來朗讀給定的語句,然后對這些情感語音進行情感分析,從而得到了表演所得的情感語音。雖然表演所得的情感語音的自然度不如自然產生的情感語音高,但比較容易獲得。表演所得的情感語音的質量同它的說話者有很大的聯系。因此,為提高表演所得的情感語音的質量,可以邀請專業演員或播音員來表演獲取。表演所得的情感語音與自然情感語音相比,前者的情感狀態可能會被不同程度的夸大,所以,真實的情感不能在有些表演所得的情感語音中得到合理的體現;雖然表演所得的情感語音有較高的語音情感識別率,但是真實的情感語音的特點是不能僅僅用這類情感語音來代表的。可見,語音的情感狀態的自然度同情感語音的獲取方法是不可調和的矛盾。3 由情感引導產生的情感語音在對這類情感語音進行錄音之前,情感語音學者會讓說話者讀一些能讓說話者產生某種感情的文學段落,或者看一段能讓說話者產生某種情感的電影,來引導說話者產生某種情感,從而獲得由情感引導產生的情感語音。2 1 4 情感語音庫介紹下面對國外已有的情感語音庫作簡要介紹口9 l 。b e l f a s td a t a b a s e :該情感語音庫是英語文本,情感種類有憤怒,悲傷,高興,中立和害怕,情感語音庫的類型是由情感引導產生的情感語音庫,是音頻文件,9 碩士學位論文第二章情感語音數據庫發音人共有5 0 位;b e l f a s tn a t u r a l :該情感語音庫是在電視錄音中采集的英語情感語音,屬于表演所得的情感語音庫,每段語音長度在10 6 0 s 間,情感種類主要是憤怒,共有1 2 5 個發音人,其中3 1 個男生,9 4 個女生;a l b e l i n :這個情感語音庫是瑞典語文本,是表演所得的情感語音,情感種類有憤怒,厭惡,害怕,高興,悲傷,驚訝和羞愧等,只有一個發音人;b a n s ea n ds c h e r e r :該情感語音庫屬于引導產生的情感語音庫,是德語文本,字面不包含情感,有情感引導文本引導說話人說出各種情感語音,情感種類有惡狠狠的憤怒,冷怒,焦慮,煩躁,鄙視,厭惡,興高采烈,害怕,高興,感興趣,驕傲,悲傷及羞愧1 3 種情感,共有1 2 個發音人,6 個男生6 個女生,音頻視頻文件皆有;m o z z i c o n a c c i :該情感語音庫屬于引導產生的情感語音庫,是荷蘭語文本,文本中不包含情緒,但有引導說話人產生某種情感的文本,情感種類包括憤怒,煩惱,害怕,厭惡,內疚,高興,驕傲,憤怒,高興,中立,狂怒,悲傷和擔心1 3 種情感,有3 個發音人,音頻文件;r e a d h a g l e e d sd a t a b a s e :該情感語音庫是4 5 個小時的廣播電視錄音,英語發音,情感種類主要是憤怒。國內普通話的情感語音庫主要有中科院錄制的情感語音庫。該語音庫屬于a c t e ds p e e c h 類型。錄音人是一普通話標準的男性,語音庫以句子為單位,每個句子由六個字組成,分別以高興、憤怒、悲傷、驚奇、害怕和中立6 種情感方式朗讀,采樣率為1 6 k h z ,以w a v 文件類型保存。2 2 情感語音數據庫的建立由于語音產生的機理復雜、受包括語法句式、重音、說話人情感以及說話人個性特征等在內的眾多因素的影響,為了突出情感特征參數如何受情感因素影響的研究初衷,設計、選取了特定的情感語音數據庫。該數據庫在語句內容、長度、說話人等方面做了一定的限制,有效避免了干擾因素的影響。本文采用中科院錄制的情感語音庫,并根據研究方案,對該數據庫進行了刪選,下面分別從情感類型的選擇、語料的選擇j 錄音者、存儲格式等方面分析本文建立的情感數據庫。( 1 ) 情感類別的選擇情感的確定是建立情感語音數據庫之前必須考慮的問題。研究表明,過細的情感分類并沒有對人機交互和情感識別產生很重大的意義。當下的情感識別中,多采用4 - 6 種情感分類。國內許多學者將情感分為高興、憤怒、驚奇、悲傷四種 碩士學位論文 第二章情感語音數據庫 進行相關研究h0 。,或者分為歡快、憤怒、恐懼、悲傷。這四種情感模型的好處是 情感粒度大,容易區分辨別。另外,有研究表明,音質類參數與情感不具有一對 一的關系,而是可能與一大類的情感相關。為有效提高實驗的準確程度,本文采 用r u s s e l l 情感空間中的四種主要情感:憤怒、高興、悲傷和中立。 ( 2 ) 情感語料的選擇 語料的選擇是非常重要的,同時也是具有一定難度的。每一位話者對各種情 感的理解可能不同,對所選語句內容的理解可能也不盡相同。即使某一語句從內 容上具有某種情感傾向,但經某話者發音后,用信號處理分析后未必是有效的。 因此,為了得到有效的情感語音數據,實驗用語料的選擇需要考慮以下3 個方 面: 1 ) 所選擇的語句必須不包含某一方面的情感傾向; 2 ) 必須具有較高的情感自由度,對同一個語句能施加各種情感進行分析比 j 工 牧; 3 ) 是口語化的陳述句。 ( 3 ) 錄音者以及存儲格式 該語音庫的錄音者是一普通話標準的女性,可以使實驗結果不受說話人個性 特征的影響。對挑選出的每個句子分別按照上面所述的歡快、憤怒、悲傷以及不 帶感情的四個方式朗讀。采用1 6 k h z 采樣率、1 6 b i t 的單聲道音頻格式錄制成標 準p c m 編碼格式并以w a v 類型保存文件。圖2 2 是該情感數據庫中的語句“你 可真偉大呀”分別在憤怒、高興、悲傷和中立四種情感狀態下的語音波形。 ( a ) 高興情感語音的波形 1 型 蛆 辜o 1 里 l “hk l 一一。 丫_ 呵 一 r 一1 i 耵1 ( c ) 悲傷情感語音的波形( d ) 中立情感下的語音波形 圖2 - 2 各情感下的語音波形 2 3 本章小結 本章首先介紹了情感的分類方法,然后根據實驗條件等客觀因素確定了本課 碩士學位論文第二章情感語音數據庫題采用的情感分類方法;介紹了情感語音庫的類型和已有的情感語音庫,在此基礎上確定了本課題所采用的情感語音庫一中科院錄制的情感語音庫;并根據本課題的研究方案和需要,分析了情感語音庫的建立規則和選擇條件,并從中選取了特定的情感語句,最終確定了本課題的情感語音庫。 碩士學位論文 第三章情感語音的音質特征分析 第三章情感語音的音質特征分析 在一定的情感狀態下,說話人發出的含有一定語義的語音即為情感語音。語 音中所包含的情感信息是相當重要的信息,情感信息能幫助人們更好的通過語音 進行交流。語音情感狀態的變化可以由情感參數的變化規律來體現。本章主要分 析研究了情感語音的音質特征參數。盡管當今對情感語音的音質特征研究還比較 少,通過對共振峰參數等的分析,還是發現了一定的情感表現規律。本文針對當 前缺乏語音情感特征的發聲模型方面的專門研究,通過研究現有的建模方法,提 出了建立基于g m m 模型的情感l p c 系數模型的新思路。 預處理包括語音信號的數字化和數字化后的初步處理,是對語音信號進行分 析和處理的前提和基礎,對情感語音自然也不例外。所以,本節首先對語音信號 的預處理進行了研究。 3 1 語音信號的預處理 3 1 1 預處理 由于語音信號的平均功率譜受聲門激勵和口鼻輻射影響,信號的高頻部分大 約在8 0 0 h z 以上按6 d b 倍頻程跌落,即語音信號的頻譜產生高頻衰落現象。所 以系統得到語音信號頻譜時,頻率越高相應的成分越少,高頻部分的頻譜比低頻 部分的難求,為抵消這種影響就進行預加重( p r e e m p h a s i s ) 處理h 1 j 。預加重的目的 是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻整個頻帶中,能用 同樣的信噪比求頻譜,以便于頻譜分析或聲道參數分析。預加重一般是在語音信 號數字化之后、參數分析之前在計算機里用具有提升高頻特性的預加重數字濾波 器來實現,它般是一個一階的數字濾波器 h = l a z 。1( 3 1 ) a 決定截止頻率,此濾波器為單零點濾波器,呈高通特性。a 為頻域中的預 加重因子,控制預加重程度,a 典型值為0 9 左右。圖3 1 是a 為0 9 時的頻率 特性。 語音信號特性是隨時間變化的,但是在一個短時間范圍內其特性基本保持不 變,因此可以將語音看作是一個準平穩過程,對語音的分析和處理都建立在短時 分析的基礎上,將其分成一段一段來分析,其中每一段稱為一幀,即對語音信號 流采用分幀或分段來處理。由于語音通常在1 0 m s 一- 3 0 m s 之內是保持相對平穩的, 因而幀長一般取為10 m s - 3 0 m s 。 碩士學位論文第三章情感語音的音質特征分析1 0號0翟加2 0:= - = ,1 7 f 。_ - - - - - 。j 。- - - - - 一。廣。oo 2歸境頻率( o 死gr a 州s a m p i e 0 8 )歸一化頻率r ,刑。,m 、圖3 1 預加重濾波器頻率特性如圖3 2 所示,經過了預加重之后,聲音變得比較尖銳,音量也變小了。a值越大對高頻分量幅度的提升越大。( a ) 原始語音n y( b ) 預加重后語音:a - - o 9 5 圖3 - 2 預加重效果進行過預加重數字濾波處理后,接下來就是要進行加窗分幀處理。分幀的過程實際上就是加窗的過程。分幀雖然可以用連續分段的方法,但一般要采用交疊分段的方法,使幀與幀之間平滑過渡,保持其連續性。前一幀與后一幀之間的距離稱為幀移。幀長與幀移的比值一般為i 2 左右。分幀是用可移動的有限長度窗口進行加權的方法來實現的,這就是用一定的窗函數w ( 刀) 乘以信號s 俐。從而形成加窗語音信號s w ( 玎) = s 俐術w ( n ) 。1 4 碩士學位論文第三章情感語音的音質特征分析在語音數字信號處理中常用的窗函數有矩形窗、漢明( h a m m i n g ) 窗和漢寧( h a r m i n g ) 窗,其定義分別為( 1 ) 矩形窗w _ 蕊虬( 3 - 2 )w ( 加惦其他)( 2 ) 漢明窗) 一i u ,其他、?!? 3 ) 漢寧窗w ( 爐 0 晉:s ( 2 冊化) 】,o 如虬。( 3 - 4 )w ( 玎) 2 1 0 ,妻他、”其中三為窗長,這些窗函數都有低通特性。通過比較分析:矩形窗旁瓣太高,會產生嚴重的泄漏現象,因此很少采用矩形窗;而漢明窗旁瓣最低,可有效地克服泄漏現象,具有更平滑的低通特性,因此應用最廣泛。另外若窗越長,它對信號的平均作用越厲害,信號的頻率分辨率越高,但是其時間分辨率也越低,因此要想反映出快速時變信息,窗長應相對短一些。3 。1 2 端點檢測對于采集到的語音信號,除了用戶的語音信號以外,一般在頭部和尾部還包含靜音段,而在現實環境中,靜音段經常由于受到噪聲的污染能量值不為零,導致系統誤判,性能降低。對語音信號進行端點檢測n2 | ,有利于減少系統運算量,提高系統性能。首先可以考慮用信號的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 隧道機械化施工中的設備管理策略與實施計劃制定研究考核試卷
- 鉛酸電池的循環利用與環保技術考核試卷
- 貨運火車站物流企業績效管理體系構建與實施考核試卷
- 陶瓷藝術工作室運營與管理考核試卷
- 銅冶煉廠的安全管理體系構建與運行考核試卷
- 小兒常見眼部疾病診療與預防
- 食品營養與衛生
- 腦血管疾病的營養管理
- 呼吸科評分量表臨床應用與管理規范
- Glisoprenin-A-生命科學試劑-MCE
- 校長在2025暑假前期末教師大會上的講話:靜水深流腳踏實地
- (2025)全國“安全生產月活動”《安全知識》競賽試題庫(附含答案)
- (2025)黨校入黨積極分子培訓結業考試題庫與答案
- 2025年中國超薄柔性玻璃(UTG)行業深度分析、投資前景及發展趨勢預測報告(智研咨詢)
- 交房期間業主維權突發事件應急預案
- 貸款后管理與客戶滿意度提升
- 自動生成的文檔-202504081202-99
- 【專題訓練】專題04三角形(考題猜想九大題型)(學生版+解析)-2025年七年級數學下學期期末總復習(北師大版)
- 2025年全國護士資格考試試卷及答案
- 費用類報銷管理制度
- 難點01:總集篇·十三種簡便計算巧算法【十三大考點】-2024年小升初數學典型例題系列(原卷版+解析)
評論
0/150
提交評論