


版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、工程碩士學位論文寫作范例Study on the Pavement Material of Pervious Concrete(申請清華大學工程碩士專業學位論文)培 養 單 位:計算機科學與技術系工程領域:計算機技術申 請 人:李 某指導教師:某某某教 授聯合指導教師:某某某高 工二九年三月工程碩士學位論文寫作說明李某關于學位論文使用授權的說明本人完全了解清華大學有關保留、使用學位論文的規定,即:清華大學擁有在著作權法規定范圍內學位論文的使用權,其中包括:(1)已獲學位的研究生必須按學校規定提交學位論文,學??梢圆捎糜坝?、縮印或其他復制手段保存研究生上交的學位論文;(2)為教學和科研目的,學校
2、可以將公開的學位論文作為資料在圖書館、資料室等場所供校內師生閱讀,或在校園網上供校內師生瀏覽部分內容。本人保證遵守上述規定。作者簽名: 導師簽名: 日 期: 日 期: 摘 要情感是人類智能的重要方面。為建立和諧的人機交互環境,計算機自然需要具有理解情感和表達情感的能力。本文在聲學層次上系統性地研究了情感的區分特征和感知特征,并提出了情感語音的疊加模型。論文的主要成果如下:1. 分析了. ,指出當前存在. 問題。研究了. 特點,提出了一種 算法,并通過. 實現了 。2. 提出了一種基于韻律強度的語音基頻預測算法,. 。3. 設計了一個自學習的特征權值訓練算法,提高了. 。4 實現了. 平臺,驗證
3、了. 的有效性。關鍵詞:關鍵詞1關鍵詞2關鍵詞3關鍵詞4關鍵詞5AbstractWith the rapid development of information technology, computer becomes an indispensable tool in our daily life. To make human-computer interaction friendlier, researchers of relevant research fields apply themselves on the development of new human-computer int
4、eraction technologies. Speech, as the most natural way in human communication, is also in the center of attention. And the HCI (human-computer interface) technologies, which based on speech recognition, speech synthesis, and natural language understanding, have been recognized as the most promising
5、research direction.In recent years, as the development of statistical methods for speech synthesis, large corpus based Text-to-Speech (TTS) system has been able to synthesize high quality speech. But compared with human natural speech, the synthesized speech still has some shortages, especially in p
6、rosody expression. In this thesis, speech prosody in Chinese Putonghua is first studied, and a conclusion is made that one problem with current prosody modeling methods is lack of a global-level prosody planning process. It also points out that the prosodic parameters for global-level prosody planni
7、ng, such as prosodic strength, is in need. In chapter 2, a new prosodic strength estimation method based on Parallel Encoding and Target Approximation (PENTA) Model is introduced. In this estimation method, prosodic strength is taken as a latent variable in phrase-level prosodic planning process, an
8、d prosodic strength function, which is a mapping function between acoustic prosodic parameters and prosodic strength, is represented with Neural Network. Based on the correlation between prosodic strength and speech unit target completion degree, prosodic strength functions are trained automatically
9、 with a speech corpus.In chapter 3, an F0 generation method based on prosodic strength is proposed. In this new F0 prediction method, the global prosody planning problem is tackled through adding a global prosodic strength planning process before pitch prediction for speech units. It has been widely
10、 accepted that, in human speech communication there is a prosody pre-planning process for each prosodic phrase before articulation, and then syllables are articulated according to their pre-planned prosodic results. In this method, prosodic strength is chosen as the latent variable for phrase level
11、prosodic planning, and the prosody planning process is simulated with prosodic strength modeling. So in prosodic prediction, a prosodic strength planning is first done for each prosodic phrase, and then pitch contour of each syllable is predicted based on its assigned prosodic strength and its proso
12、dic context information.One difficulty in speech synthesis for embedded platform is how to customize the speech corpus to meet the different requirements from different embedded platforms. On this problem, a self-learning feature weights training algorithm and a speech corpus customization algorithm
13、 are proposed in chapter 4. With this method, given the size of target speech corpus, sample numbers of syllable classes will be determined automatically, and the synthesis results of different syllable classes can be made sure to be balanced.Keywords: prosodic strength prosodic model pitch predicti
14、on speech corpus customization HMM目 錄第1章 引言11.1 論文背景及意義11.2 國內外研究現狀21.2.1 語音合成技術的研究現狀21.3 論文主要內容3第2章 漢語韻律分析52.1 漢語的特點分析52.1.1 漢語聲調的聲學特性52.2 漢語語音的韻律52.2.1 漢語的韻律層級結構72.2.2 漢語重音的韻律分析72.3 韻律分析模型研究現狀82.3.1 Stem-ML模型82.3.2 PENTA模型82.4 問題的提出92.5 基于目標逼近(TA)模型的韻律強度(prosodic Strength)計算112.5.1 Target完成程度的估計11
15、2.5.2 Prosodic strength函數的定義122.5.3 Prosodic strength的訓練122.6 實驗及結果分析122.7 小結15第5章 總結與展望17參考文獻19致 謝21聲 明21附錄AXXX23個人簡歷、在學期間發表的學術論文與研究成果25主要符號對照表GMM高斯混合模型(Gaussian Mixtures Model)HMM隱含馬爾科夫模型(Hidden Markov Model)LPC線性預測系數(Linear Prediction Coefficients)LPCC線性預測倒譜系數(Linear Prediction Cepstral Coefficie
16、nts)AMCC自適應Mel倒譜系數(Adaptive Mel Cepstral Coefficients)MFCCMel頻域倒譜系數(Mel Frequency Cepstral Coefficients)UBM統一背景模型(Universal Background Model)UELS無偏對數頻譜估計(Unbiased Estimation of Log Spectrum)TI文本無關(Text-Independent)TD文本相關(Text-Dependent)ASI自動說話人辨識(Automatic Speaker Identification)ASV自動說話人確認(Automatic
17、 Speaker Verification)VQ矢量量化(Vector Quantization)FAR錯誤接受率(False Acceptance Rate)FRR錯誤拒絕率(False Rejection Rate)GMM高斯混合模型(Gaussian Mixtures Model)HMM隱含馬爾科夫模型(Hidden Markov Model)LPC線性預測系數(Linear Prediction Coefficients)LPCC線性預測倒譜系數(Linear Prediction Cepstral Coefficients)AMCC自適應Mel倒譜系數(Adaptive Mel Ce
18、pstral Coefficients)MFCCMel頻域倒譜系數(Mel Frequency Cepstral Coefficients)UBM統一背景模型(Universal Background Model)UELS無偏對數頻譜估計(Unbiased Estimation of Log Spectrum)TI文本無關(Text-Independent)TD文本相關(Text-Dependent)ASI自動說話人辨識(Automatic Speaker Identification)ASV自動說話人確認(Automatic Speaker Verification)VQ矢量量化(Vecto
19、r Quantization)FAR錯誤接受率(False Acceptance Rate)FRR錯誤拒絕率(False Rejection Rate)第1章 引言1.1 論文背景及意義文本所研究的語音合成(TTS)是利用計算機將輸入的文本信息,按照自然語言的發音規則轉換成語音輸出,即使計算機具有“讀”的功能的一項技術。一個語音合成系統,要實現高質量的語音合成,首先需要對所要合成的文本信息有很好的理解,這主要涉及到自然語言理解的問題;要使合成的語音符合人的說話的韻律形式,就需要人的自然語音的韻律變化狀態及字音轉換方面的知識;最后要完成以上所有信息到具體合成語音的聲學實現,主要涉及到語音信號處理
20、等方面??傊Z音合成系統本身涉及聲學、語言學、數字信號處理、多媒體技術等多個領域,是中文信息處理領域的一項前沿技術。 腳注實際的語音合成過程一般是將輸入的文字序列轉換成音韻序列,再由語音合成器生成語音波形。整個過程一般第一步為文本分析處理,即按照語義、語法等規則對文本進行分詞和標注,并將文字序列轉換成字的音節序列;第二步為韻律分析預測,即根據語境、韻律規則和韻律模型,為每個音節或詞組調整韻律參數,將音節序列轉換成音韻序列。第三步語音聲學合成,主要利用信號處理技術,按要求合成出符合上兩步預測結構的高質量的語音流。因此,語音合成系統在結構上通??煞譃槲谋痉治鎏幚?、韻律處理和聲學處理三大模塊,如圖1
21、.1所示。其中在文本分析處理模塊主要模擬人對自然語言的理解過程,對輸入的文本進行分析并給出后兩個模塊所需的各種發音提示,具體內容可劃分為正則化、分詞與詞性標注、韻律結構預測、字音轉換等幾個部分。其中正則化部分主要負責將自然文本中存在在非漢字字符轉換為漢字字符,比如數字格式的日期等。由于漢語的文本中詞與詞之間沒有自然的分界,而自然語音中的韻律的節奏和文本中的詞的邊界有很大的關系,因此分詞也是文本分析的重要任務之一。然后就是字音轉換部分,主要負責將輸入的文字序列轉變為音節的序列。韻律處理模塊的主要功能是為合成語音規劃出音段特征,如音高、時長和音強等,使合成語音能正確表達語意,聽起來更加自然。因此,
22、它是合成語音音質好壞的關鍵。韻律處理模塊將根據語調、重音和節奏,對每個發音單元進行韻律調整,調整后的輸出是包含“韻律信息”的音韻序列。聲學處理模塊利用音韻序列中的相應參數,從語音數據庫中選取合適的語音基元拼接成句,再經過韻律修飾,就可以輸出自然連續的語音流。作為人機交互的核心技術之一,語音合成技術一直是語音研究的重要領域,而且近年在技術和應用方面都取得了很大的發展。隨著電子計算機的運算和存儲能力的迅猛發展,語音合成技術由早期的基于規則的參數合成,到基于小樣本的拼接調整合成,并逐漸發展為基于大語料庫的拼接合成,到現在流行的基于隱馬爾科夫模型HMM的語音合成。與此同時,合成語音的自然度和音質都得到
23、了明顯的改善,基本可以實現人們的應用需求,從而促進了其在實際系統中的應用。目前,語音合成技術己經在自動應答呼叫中心(包括金融、電信和政府等)、電話信息查詢(包括天氣、交通和旅游等)、汽車導航以及電子郵件閱讀等方面得到廣泛的應用,同時針對娛樂和教育方面的應用也正在開展??偠灾Z音合成技術正在影響著現代社會的方方面面。1.2 國內外研究現狀1.2.1 語音合成技術的研究現狀1.2.1.1 三級節標題語音合成技術根據語音生成的方法大致可分為四種:發音參數合成方法,基于聲道模型參數合成方法,拼接合成方法和基于統計模型的參數合成方法。其中發音參數合成著重于對人的發音過程進行直接模擬,由于人的發音生理
24、過程受各種因素的影響使具體的物理模擬過程與現實有很大差異,合成效果不理想。聲道模型參數合成方法主要基于一個“激勵源濾波器”(source-filter)的語音生成模型,它把人的聲道看作成一個諧振腔,腔體的共振峰特性決定了語音的頻譜特性,通過建立激勵源模型和共振峰聲道模型來合成自然語音。這種方法主要有共振峰合成器、LPC合成器等,但由于模型本身相對于實際的人的發聲器官來說過于簡單,生成的合成語音機器味很濃,自然度不理想。拼接合成方法與前兩種通過對發聲過程進行模擬的語音合成方式不同,采用通過對自然語言的分析,選擇合適的基元單位,建立一定規模的語料庫;在合成時,在語料庫中選擇合適的基元將其拼接起來而
25、完成完整的語音輸出。一般拼接式合成系統結構如圖1.2所示:文本分析基元選取韻律分析拼接合成語音輸出基元庫文本輸入圖1.2拼接式語音合成系統結構圖由于編解碼保存了語音的絕大部分信息,自然度很高。但是由于人實際說話時的自然語流并不僅僅是各個孤立語音的簡單拼接,所以整體效果自然度不好。1.3 論文主要內容第2章 漢語韻律分析2.1 漢語的特點分析漢語普通話是以北方話為基礎方言,以北京語音為標準音,以現代白話文作為語法規范的語言。漢語與其他的西方語言有很大的不同,主要表現在一字一音或一字多音,而由不同字的組合構成了無限多個詞匯,不同詞匯的組合又構成了表達一定意義的句子,但是相同發音的詞匯甚至句子在不同
26、的語境中表達的意思卻可能千差萬別。音素是語音學的基本單位,是指發出各不相同聲音的最小單位。漢語中有64個音素,它們構成了聲母和韻母兩大類。漢語拼音中有21個聲母和38個韻母,聲母和韻母共計59個,聲母和韻母再組成音節。漢語無調音節有417個,由于每個音節又有不同的聲調,因此漢語的有調音節為1332個,無調音節和有調音節加起來,總計為1700多個音節。總體上漢語語音主要有以下特點:2.1.1 漢語聲調的聲學特性聲調主要表現人的聲帶振動情況,它的聲學表現是語音的基音頻率的高低及其基音頻率值隨時間的變化趨勢。因此,要完成一個聲調的發音必須要持續一定的時長,這樣才能被人們正確地感知,從聲學參數角度來說
27、就是要有一段連續的基頻變化曲線,即聲調曲線。對于漢語來說,音節聲調的變化主要通過音節的濁音部分的基頻變化來表現,通常采用音節韻母段中基頻變化的軌跡來確定音節的聲調曲線。在8385中提出,一個完整的漢語音節聲調曲線可以分為3個部分:彎頭段(頭部)、調型段(中部)和降尾段(尾部)。2.2 漢語語音的韻律語音中的韻律主要是指自然語音中輕重、節奏,語調等方面的變化。韻律在自然語言交流中起著非常重要的作用,它不僅是清楚表達語義的關鍵,而且能反映說話人的態度、意向、情緒以及對聽話人的期望等信息。重音和語調是自然語音中韻律表現最突出的兩個方面。比如,我們在表達一個疑問句和陳述句之間的區別,是通過語調的改變和
28、用我們發音的基頻變化來產生疑問的。語調的變化還可以傳達一個說話人的情感狀態、性別、健康情況等81。而重音在談話中通常被用于表明句子語義的重心所在。例如,陳述句:“小明拿走了書包”這一句話,當重心放在“小明”和“書包”兩個不同的位置是所表達的意思就有很大的不同,雖然字面上仍是一樣的,但是對于說話人和聽話人來說具有不同的意思。這也是自然語言相對與書面語言一個優勢的方面,在書面語言中,還沒有更好的方法來表達重音和語調,這兩個韻律特征只在在語音中才有明顯的表現。從感知的角度來看,韻律主要為聽覺特征,韻律包含了說話人的意圖信息和聽話人的感知信息,它在幫助聽話人理解語言及意圖時十分有用。從生理上來看,韻律
29、的實現是發音人在完成發音的同時,與發音聲調的高低、用力的大小以及持續時間的長短等因素總體作用的結果12。從聲學的角度上看,韻律對應的聲學特征主要表現在語音的基頻、時長、能量和頻譜的變化。從聽覺的角度上看,可以用音高、時長、音強和音色四個語音聽覺特征來描述。其中基頻是韻律特征中最主要的聲學特征,說話過程中,主要通過聲音基頻的高低和變化模式反映說話人的情緒、語句內容的不同等。此外,語音中適當的停頓也是韻律的一個很重要的成分。在漢語語音中,音節是最基本單元,然后由音節組成詞,由詞構成句子。在漢語語音合成中,音節也通常被選用做語音合成的基本單元,音節的基頻、時長、能量作為表示韻律的聲學參數。但是在連續
30、自然語音中同一個漢語音節在不同的語流環境中,由于發音器官運動軌跡的連續性和眾多發音習慣的制約,其韻律聲學參數都會發生相應的改變。而且韻律本身也是通過連續音節的韻律變化表現出來的,因此韻律特征也被稱為“超音段特征”,因此要對漢語語音中音節的韻律進行研究必須同基元所在的上下文相結合才行。也就是說自然語音中一個韻律單元的各個聲學參數之間都不是相互獨立的,而是相互配合在一起共同完成發音人對所要表達內容的聲學實現。在語音的研究中也普遍認為,人在講話時總是先將意識層要表達的信息轉化成語言層和音系層的表達手段,如選擇怎樣的措辭及句式,怎樣的語調、輕重變化模式、節律模式等,最后再通過發音人的聲學器官來完成音系
31、層和語言層所規劃的目標。對于語音合成系統來說,韻律預測的水平對合成語音的自然度關系極大,甚至會影響合成語音的可懂度,也只有當合成語音中各個音節的韻律特征的參數更新與所處的語流環境協調一致時,才能獲得高自然度的語音輸出。2.2.1 漢語的韻律層級結構在連續自然語流中由于達意和節奏的需要,說話時對于音節序列的發音是按組完成,即節奏群。在節奏群內音節與音節之間連接緊密,整體語調曲線連貫,而且節奏群內音節基頻曲線整體上呈現下降的趨勢;在節奏群之間則會插入停頓,在后一個節奏群的開始通常基頻將重置89。在節奏群內部音節間相互連接的緊密程度也是有所不同的,通常共同構成一個詞的音節間連接相對會更緊密一些,這樣
32、在整個節奏群中也可以通過音節間不同的緊密程度將整個語句韻律表現為一個層次結構。關于語言的韻律層級,各家說法不同,所用術語也不統一17。在韻律音系學里,一般認為,韻律域從小到大可依次分為:莫拉、音節、音步、音系詞、附著語素詞組、音系短語、語調短語和韻律語句。但通常,人們將漢語韻律層級簡化為三個層級:韻律詞、韻律短語和語調短語89。廣義地說,韻律結構應包括重音、節奏和語調三方面的結構,例如重音的位置分布及其等級差異;韻律邊界的位置分布及其等級差異;語調的基本架構及其與聲調和重音的關系等。狹義地說,韻律結構主要指話語節奏的層次性組織,包括韻律詞的構成以及各韻律成分邊界的界定等等,通常叫做韻律切分。從
33、表面上看,語言信息呈線性排列,在時間上依次出現;但從話語生成的本質上看,語言信息在時間域并不是線性地平均分配,而是以非線性的、層級的形式分布,并且是非遞歸的50。按照韻律的層級結構,可以采用韻律結構樹的方法,將任何一個句子非遞歸地從高到低、依序分解成語調短語、韻律短語和韻律詞,其中韻律短語和韻律詞是現實應用系統常用的韻律單位。2.2.2 漢語重音的韻律分析重音一般是通過對連續語流中某個字或詞的發音在一定的范圍內韻律特征的凸顯表現出來的,也就是說受到重讀的字或詞的韻律特征明顯地不同于相鄰單元的韻律特征29。研究表明,漢語重音的韻律聲學特征表現在音高和時長的變化,即音域擴大(增高聲調域的上限)和時
34、長延長兩個方面,其次才是音強的增加。許潔萍等8882經過實驗也得出了相似的結論。曹劍芬59認為,重音是韻律四要素綜合增強的效應,其中主要是音節時長顯著加長,音高變化突出,具體表現為音階或音閉的抬高或下沉,音域變化范圍增大;然后是音強的相對提高,音色也更加典型。從感知的角度來看,如果一個字或詞組成為重音可以通過音高、時長、音強和停頓來表征81。例如,在連續語流中,提高某個字或詞組的音高,可以起到警示或強調作用;拉長音節時長可以在心理上起到暗示作用;提高聲音的幅度可增加人們的注意力;在字或詞組前加入停頓,在聽覺上會凸現重點。傳統的語音研究中曾經把音強和重音等同起來,這是片面的。重音不僅和音強有關,
35、更和時長、音高有關。時長越長、音高越高、跨越的調域越廣,重音越明顯。例如“ji,shu技術”重心在前一個音節,而“ji,shu計數”重心在后一個音節。盡管兩個詞組的發音完全相同,但是由于它們發音時的重音位置不同,其音高和時長也不同,則詞組表達的意思完全不同,因此重音的作用和意義非常明顯,如圖2.2所示。.2.3 韻律分析模型研究現狀在語音韻律模型方面的研究主要分為兩個方面,一個方面是音系學方面的研究人員為解釋語音中的韻律現象而提出的韻律分析模型方面的研究4,主要代表有Shih提出的Stem-ML模型和XuYi的PENTA模型,而另一個方面為語音合成和語音識別的研究人員所提出的為在實際的系統中應
36、用的韻律預測模型7172,目前主要是基于數據驅動的韻律預測模型,比如基于上下文決策樹的2,基于概率的韻律預測模型3050等。在這一部分我們主要針對Stem-ML和PENTA這兩個韻律分析模型進行簡單介紹。2.3.1 Stem-ML模型2.3.2 PENTA模型2.4 問題的提出要實現高自然度的語音合成,韻律預測是最重要的工作之一。目前語音合成系統中使用的韻律預測模型大多是基于數據驅動的方法,比如基于決策樹方法,基于概率的統計模型10等等,主要是基于上下文聚類的方法對聲學層韻律參數進行預測。上下文聚類中采用的上下文信息主要有韻律層級結構信息,音節自身屬性,及前后音節屬性信息等5,而相對于自然語音
37、中的復雜多變的韻律來說這些上下文信息是遠遠不夠。由于有限上下文信息的限制,當前的韻律預測方法只能夠應付一般性的韻律變化,對于相對復雜的韻律現象就顯得不足,比如自然語音普遍存在的輕重讀9192現象。在自然語音的同一韻律節奏單元中,不同音節總是受到不同形式的輕讀或重讀,這樣使語音中的韻律更加豐富多彩36。而且從這些音節的不同輕重讀和節奏中,我們可以理解到比字面上更多的信息,比如說話人的態度、意圖等等,事實上這些信息就是由語音的韻律特征所表現出來的。在我們對錄制的語料庫中的語音的觀察中發現,雖然錄音人已經盡量使用中性且不附加任何個人意圖的表達方式進行語音的錄制,在語音節奏中仍普遍存在著不同的輕讀和重
38、讀53。并且,文本中也總是存在著一些很自然的句子重心,語義重心,比如一些轉折詞之類,他們就也很自然地受到相對的重讀,而其他一些不重要的成分,比如一些輔助詞,則自然地受到相對的輕讀。這在某種程度上說明了,在正常自然語音表達過程中,語句中各個單元在語義上的不平等性必然會引起語音中不同單元間不同的輕重讀現象,而且這一現象是自然語音韻律中不可缺少的一部分。因此要使語音合成系統達到自然語音韻律的合成效果,就要求我們在韻律建模中也要能夠描述這種韻律現象9192。關于自然語音中普遍存在的輕重讀現象,13中通過對實驗室錄制語音與日常語音之間的區別的研究,認為日常語音與錄制語音之間最大的區別就是日常語音中par
39、tial reduction現象十分明顯,語音單元的發音一般都不是完全完整的,這一點造成了實驗室中利用錄制語音建立的語音模型在描述日常語音時表現很差92,指出這其中主要原因可能是當前韻律模型中在語句規劃和發音建模之間缺乏一個用來描述語音中的韻律規劃的橋梁14。因此,要完成自然語音中這種韻律變化的描述有必要在當前的韻律預測模型中加入韻律規劃的能力。關于在全局層次的韻律規劃,音系學方面學者已經從韻律分析的角度做了深入研究,也取得了很多研究成果。在當前的主要韻律分析模型,比如前面一節所介紹的Stem-ML和PENTA模型,已經可以引入了各自的韻律特征來對自然語音中的韻律規劃現象進行解釋。比如Stem
40、-ML模型中的目標權值(target weight)參數。在Stem-ML模型中認為每個語音單元都隱含著一個目標權值,它在概念上表示說話人對此語音單元的發音完整的重視程度。因為現實語音總是追求在最省力的條件下,完成自己說話的任務,因此從目標權值的角度來說就是,追求整體目標權值和最小的情況下,盡量表達清楚自己要說的內容。所以在語音表達的過程中應該有一個各個語音單元的目標權值的規劃過程,然后各個單元按照自己的權值做出一定程度的輕讀或重讀。另外在PENTA模型中也有發音強度(articulation strength)參數來描述類似的概念。但是如何將韻律分析方面所取得的研究成果應用到實際韻律預測系統
41、中還有一定的困難,主要表現在韻律分析模型中大多建立在自然語音交流中從人的心理的角度或實際發音中生理上的約束這兩個方面體現的抽象韻律特征的基礎上,而這些韻律特征大多只是定性的描述而沒有準確的量化方法,從而在實際的韻律預測系統中難以使用,而這也造成了韻律分析模型在實際韻律韻律模型中應用的困難。在如何對prosodic strength進行量化計算,也有研究人員進行了初步的嘗試。比如在28中,提出使用prosodic strength來描述每個音節的目標權值,并且提出了一種基于Stem-ML模型的prosodic strength計算方法。該方法主要利用基頻信息完成prosodic strength
42、的計算,具體方法為:首先基于Stem-ML模型,擬合現有的基頻曲線,得到可最佳表示此基頻曲線的Stem-ML模型參數,然后將此參數與各個聲調的參數模板相比較,通過與參數模板間的差距來計算各個音節的prosodic strength,差異越大意味著音節偏離基本形態越嚴重,相應prosodic strength也越大。但是此方法仍嚴重依賴于對原始語音數據的Stem-ML標注,而目前也沒有較好的Stem-ML自動標注方法,因此很難在當前以數據驅動方法為主的韻律預測模型中使用。在此我們提出了一個基于target思想的prosodic strength計算方法。在我們的計算方法中,利用人在實際發音過程中
43、prosodic strength與韻律單元的target實現情況之間的相關性,以及不同韻律單元target形式的相關性,完全采用數據驅動和機器學習的方法完成對音節的prosodic strength的估計工作。2.5 基于目標逼近(TA)模型的韻律強度(prosodic Strength)計算基于目標逼近(TA)模型,我們可以認為對音節的預先規劃主要是對各個音節目標(target)的規劃,而實際的發音過程是對規劃的音節target的實現的過程。另外由于韻律強度(prosodic strength)作為一種內在的strength,可以看做是實現音節target的激勵。整個發音過程可以解釋為在整
44、體prosodic strength盡量小的前提下,盡量好的完成對各個音節的target的實現26;由于不同音節在實際的語句中有不同的重要性,表現在實際的發音過程中對各個音節target實現程度的要求也不盡相同,所消耗的prosodic strength也相應不同。基于以上分析,我們首先憑經驗給出一種對音節target完成程度進行估計的方法,然后根據音節target完成程度提出了一種基于TA模型的prosodic strength計算方法。2.5.1 Target完成程度的估計漢語是一種有調語言,在實際語言表達過程中聲調占有很重要的位置,即在實現漢語音節target的過程中對聲調的實現是必需的
45、。因此,為完成prosodic strength的計算,首先為漢語普通話的每種聲調定義了一個衡量該聲調target實現程度的函數,用以描述一個音節的target完成程度。而聲調在聲學參數上主要表現為基頻的變化規律,因此我們通過音節基頻信息估算出音節對聲調完成的程度4373,并以此來表示該音節的target完成程度。表2.1不同聲調音節target完成程度計算聲調類型完成程度計算陰平陽平上聲去聲在普通話中,對于陰平和上聲分別為基頻高線和基頻低線,主要為水平狀態,而且好的音節實現除了基頻值越高越好(對于上聲越低越好)還應當保持基頻變化范圍應當較小。而對于陽平和去聲這兩個聲調,基頻變化范圍較大。對各
46、聲調target的具體形式如表2.1。其中各個參數的定義如表2.2所示:2.5.2 Prosodic strength函數的定義由于prosodic strength為在發音過程中起韻律規劃作用的隱式strength,可以合理假設語音中的各聲學參數是這種內在strength的激勵下通過整個聲學發音系統后表現出來的。從生理上看人的聲學發音系統隨著音節不同有不同的發音方式,而對于同類音節發音方式是類似的。由此可以合理推理出:對于同類音節,prosodic strength在聲學參數上的表現形式是類似的。對于漢語來說,一般每個音節都是由清音和濁音兩部分組成,清音在聲學上的表現相對較弱,濁音整體上占主
47、導作用。通過我們對實際語音參數的觀察理解,可以認為對于相同聲調的濁音其發音時聲學系統的基本特性是類似的,即可認為其prosodic strength的表現方式是類似的,因此相同聲調的濁音的prosodic strength計算可以采用同一個映射關系來表示。我們采用神經網絡函數來描述各類音節的prosodic strength與聲學參數之間的關系,采用按有調音節的韻母信息(對應于音節的濁音段)對音節進行分類,具有相同聲調、相同韻母的有調音節作為一類訓練一個神經網絡函數;所選取的聲學參數主要為音節樣本的基頻與能量,同時也考慮了音節時長的影響。對單個音節的prosodic strength計算方法是
48、:將整個音節平均分為5部分,對每部分分別計算prosodic strength。對于第i(i = 1.5)部分,其prosodic strength具體表示為(22)其中f為音節對應類型的prosodic strength函數,pi為第i段的基頻均值、pi為第i段的基頻一階差分的平均值,pi*為第i段去除超音段后的基頻均值,Ei為第i段的能量均值,其中超音段基頻值的計算采用了65中提出的方法。2.5.3 Prosodic strength的訓練2.6 實驗及結果分析實驗中所采用的語料庫共包括5000個句子,所有語句經過人工標注的韻律結構,采用praat提取語音中的聲學參數。在其中,我們選用了1
49、500個4音節以上的韻律短語,作為訓練數據。首先根據我們選擇的target實現程度函數對訓練數據中所有音節估算target實現程度,然后利用上文提出的方法對各類prosodic strength函數進行訓練。將所有音節的target實現程度和及其prosodic strength,按不同聲調統計結果如表2.3所示。從表中可以看出,整體來看陰平音節的target實現相對較好,而上聲的target實現均值是最低的,但是其prosodic strength的均值卻比陰平音節的均值要高,這與一般認為上聲的音節本身發音難度就是較大的,而完成陰平發音相對最簡單這一事實相符90。表2.3 不同聲調音節的ta
50、rget實現程度和prosodic strength的統計情況聲調類型Target均值Target方差strength均值Strength方差陰平1.9301.9231.5090.914陽平1.4561.9192.4590.601上聲0.5030.7781.8420.833去聲1.2281.0802.7390.959另外,我們比較了不同聲調的音節prosodic strength值在不同target完成程度時的分布情況。由于對于不同的聲調我們采用的是不同的target實現程度估計方法,因此不同類音節的target實現程度之間不具備可比性,在這里我們是將各類音節的target實現程度正則化后,統
51、計各類音節不同target實現程度下的prosodic strength的均值。具體情況如圖2.5所示:圖2.5 各聲調音節prosodic strength與音節target完成程度之間的關系從圖2.5中可以清楚的看到prosodic strength和target完成程度之間一致的關系。雖然在prosodic strength的估算中,我們利用了target完成程度作為參考,但我們只是假設相近target實現程度的prosodic strength也相近的假設,對于不同target實現程度音節間的prosodic strength沒有做出任何假設,因此說明了我們的方法的有效性。另外我們還統
52、計了音節位于韻律詞中各個不同位置時prosodic strength的分布情況,我們將音節在韻律詞中的位置分為三種情況,其中起始位置用1表示,末尾位置用3表示,中間部分都采用2表示。統計結果如下表所示。從表中可以看出,除了陽平音節外,其余音節的prosodic strength都在韻律詞中呈下降趨勢,其中位于韻律詞末尾的去聲音節和其他去聲音節相比變化尤為明顯。這一點和Greg在28中統計的prosodic strength在韻律詞中的變化趨勢是一致的。表2.4不同聲調音節prosodic strength與韻律詞中位置之間的關系音節類型123陰平1.5461.4671.459陽平2.4892.
53、4142.493上聲1.8961.8831.743去聲2.9502.9152.4902.7 小結本章首先對漢語普通話中的韻律現象進行分析,并結合當前韻律分析模型中的研究成果,指出當前語音合成系統在韻律建模方面存在一個顯著問題就是缺乏全局層次的韻律規劃能力。鑒于不同韻律分析模型中都分別提出將prosodic strength作為人發音過程中韻律規劃的中間變量,但目前仍缺乏一種對prosodic strength進行有效估計的方法,本章首先基于TA模型提出了新的prosodic strength計算方法,并通過實驗證明了本計算方法的有效性。關于如何將prosodic strength用于實際的基頻
54、預測,解決全局層次韻律規劃的問題將在下一章介紹。第5章 總結與展望近年來隨著統計學習在語音合成領域的應用,大規模語料庫的持續發展,合成語音的效果得到了明顯的提高。但與自然語音相比,合成語音還有很多不足,尤其是在對語音韻律的表現方面。而韻律作為語音相對于文本獨有的特性,在語音表達和交流有重要的作用,也是評價合成語音自然度的重要參考信息。本文首先對漢語普通話中的韻律現象以及當前語音合成系統的韻律預測方法進行了細致的分析,得出結論:當前語音合成系統在韻律建模方面的主要表現在全局層次的韻律規劃能力的不足。為了解決這個問題,本文提出了一種基于TA模型的prosodic strength估計方法,并利用p
55、rosodic strength來從宏觀的范圍內對韻律變化模式進行描述。然后我們提出一種基于prosodic strength的基頻建模方法,利用prosodic strength作為韻律全局規劃過程中的隱變量,基于PENTA模型提出一種新的基頻預測方法。由于該方法將單個音節的預測的基頻曲線建立在對音節的預測的prosodic strength的基礎上,相對于當前的韻律建模方式,對韻律層次結構中長距離單元間的韻律交互作用(interaction)有更好的描述。要將語音合成系統應用到嵌入式平臺,重要的工作是針對不同嵌入式平臺的進行不同規模的音庫定制。本文在第四章提出了一個自學習的衡量同類音節樣本
56、間距離的權值訓練算法以及一個基于決策樹的音庫定制算法。此音庫定制算法接受所需要的語料庫的大小作為輸入,利用權值訓練算法中訓練的特征權值自動完成定制后各類音節樣本數目的分析,完成代表語音樣本的選擇工作。參考文獻1 Elidrissi M C, Roney A, Frigon C, et al. Measurements of total kinetic-energy released to the N=2 dissociation limit of H2 - evidence of the dissociation of very high vibrational Rydberg states of H2 by doubly-excited states. Chem. Phys. Lett. 1994, 224:260-2662 Yiannopoulou A, Urbanski K, Lyyra A M, et al. Perturbation facilitated optical-optical double resonance spectroscopy of the 2 3Sg+, 3 3Sg+,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貨車股份轉讓協議合同模板
- 2025年老年照護師職業考試試卷及答案
- 2025年歷史文化遺產保護考試題及答案
- 商場接手轉讓協議書范本
- 模板廠整體出售合同協議
- 向父母借巨款協議書范本
- 員工短視頻出鏡合同協議
- 售賣電子設備合同協議
- 品牌運營費合同協議
- 2025職員借用合同
- CJ/T 156-2001 溝槽式管接頭
- 安徽省合肥一六八玫瑰園校2024年中考二模物理試題含解析
- 2024年生態環境部黃河流域生態環境監督管理局直屬事業單位招聘9人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 公交車輛輕量化與節能技術
- 歷史類常識考試100題及完整答案
- 公立醫院運營分析總結報告
- 醫療機構執業登記匯報
- 群文閱讀《杜甫詩三首》(公開課課件)
- 《浙江省建筑垃圾資源化利用技術導則》
- 2023年福建省招聘事業單位人員考試真題及答案
- 新修訂《中小學教師職業道德規范》解讀
評論
0/150
提交評論