




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《智能語音處理及應用開發》2023年2月單元1任務1:了解語音的產生單元1任務2:了解數字語音單元2任務1:了解智能語音技術的應用單元2任務2:了解語音語料庫單元2任務3:實現語音數據標注單元3任務1:理解語音識別開發技術框架單元4任務1:了解聲紋識別的技術框架單元5任務1:了解語音合成基礎單元5任務2:理解個性化語音合成技術單元5任務3:實現基于開放平臺的語音合成單元6任務1:了解語音評測的技術框架單元6任務2:開發中文朗讀發音評測系統單元6任務3:語音評測產品開發中的實施單元7任務1:設計虛擬主播單元7任務1:設計防控區智能客服單元7任務2:設計社區居民情況調查智能客服系統實踐項目:搭建智能語音處理實踐環境實踐項目:聲音采集與分析實踐項目:語音標注實踐項目:語音數字化過程實踐全套可編輯PPT課件
初步了解語音2023年2月單元一了解語音的產生單元一:任務11.通過語音相互傳遞信息是人類最重要的基本能力之一。2.語言是人類特有的表達方式。3.聲音是人類常用的工具,是相互傳遞信息的最重要的手段。雖然人可以通過多種手段獲得外界信息,但最重要的信息源只有聲音、圖像和文字三種。與采用聲音傳遞信息相比,顯然采用視覺和文字相互傳遞信息的效果要差得多,這是因為語音中除包含實際發音內容外,還包括發音人是誰及發音人喜怒哀樂等各種信息。綜上,語言是人類最重要、最有效、最常用和最方便的交換信息的方式。另一方面,語言和語音與人的智力活動密切相關,與文化和社會的進步緊密相連,它具有最大的信息容量和最高的智能水平。項目導入目錄CONTENTS1了解語音的性質2了解語音的產生3了解語音中蘊含的信息本課件是可編輯的正常PPT課件知識目標了解語音的性質掌握語音產生的過程了解語音中蘊含的信息本課件是可編輯的正常PPT課件能力目標能夠描述每個步驟的功能能夠描述每個步驟的具體目標能夠理解流程中涉及到的專業術語本課件是可編輯的正常PPT課件思政目標感悟腳踏實地、勤懇敬業、精益求精的大國工匠精神學習愛崗敬業的社會主義核心價值觀本課件是可編輯的正常PPT課件PART01了解語音的性質本課件是可編輯的正常PPT課件了解語音的性質什么是語音?風聲、雨聲是語音嗎?氣喘聲、打噴嚏聲是語音嗎?本課件是可編輯的正常PPT課件了解語音的性質語音是由人的發音器官發出來的具有一定意義的聲音。自然界的風聲、雨聲都不是由人的發音器官發出來的,所以不是語音;氣喘聲、打噴嚏聲雖然是由人的發音器官發出來的,但那只是人的本能生理反應,并不具有意義,不起交際作用,所以也不是語音。語音是語言的物質外殼,語言要通過語音來傳逆信息進行交際。沒有語音這個物質外殼,意義無法傳遞,語言也就不能成為交際工具。本課件是可編輯的正常PPT課件了解語音的性質語音的性質有哪些?本課件是可編輯的正常PPT課件了解語音的性質語音具有物理屬性、生理屬性和社會屬性三個方面的性質。其中物理屬性和生理屬性是語音的自然屬性,自然界的各種聲音都有物理屬性或生理屬性,但只有語音具有社會屬性,只有人類社會才有語音,社會屬性是語音的本質屬性。本課件是可編輯的正常PPT課件了解語音的性質語音的物理性質(1)音高——音波的頻率(2)音強——音波的強度或振幅(3)音長——聲音的長短(4)音質——聲音的個性或特色本課件是可編輯的正常PPT課件了解語音的性質語音的生理性質語音是通過發音器官發出來的。發音器官可以分為三大部分。(1)動力部分:肺和氣管。——動力站(2)發聲部分:喉頭和聲帶。——發音體(3)調節部分:口腔和鼻腔。——共鳴體本課件是可編輯的正常PPT課件了解語音的性質語音的社會性質語言是人類最重要的交際工具,具有社會性;語音是語言的物質外殼,也具有社會性。語音的社會性是語音的本質屬性。(1)語音具有民族特征。(2)語音具有地方特征。本課件是可編輯的正常PPT課件PART02了解語音的產生本課件是可編輯的正常PPT課件了解語音的產生發音的生理器官人發音有很多口腔器官集群相互協調配合完成,聲紋差異性特征原因主要有兩點,包括講話人咽喉等器官的組成差異性,影響著聲帶振動的幅度和頻率的范圍。同時,包括鼻腔、唇、舌、軟腭等聲腔肌肉群被機體控制發音的方式差異性,集群之間相互作用,就可以發出機體獨有的聲紋特征的語音。本課件是可編輯的正常PPT課件了解語音的產生發音器官分為三個部分肺和氣管——氣流是發音的動力,呼氣時肺是氣流的動力站。氣管是氣流出入的通道,吸氣時氣流經過氣管進入肺,呼氣時氣流由肺經過氣管呼出。漢語主要靠呼出的氣流來發音。本課件是可編輯的正常PPT課件了解語音的產生發音器官分為三個部分喉頭和聲帶——喉頭是由四塊軟骨構成的圓筒,圓筒的中部附著聲帶。聲帶是兩片富有彈性的肌肉薄膜,兩片薄膜中間的空隙是聲門,聲門是氣流的通道。聲帶可以放松,也可以拉緊。放松時發出的聲音較低,拉緊時發出的聲音較高。聲門可以打開,也可以關閉。打開時,氣流可以自由通過;關閉時,氣流可以從聲門的窄縫里擠出,使聲帶顫動發出響亮的聲音。本課件是可編輯的正常PPT課件了解語音的產生發音器官分為三個部分口腔和鼻腔——咽腔是個三叉口,下連喉頭,前通□腔,上連鼻腔。呼出的氣流由喉頭經過咽腔到達口腔和鼻腔。口腔、鼻腔、咽腔都是共鳴器,對發音來說口腔最重要。構成口腔的組織,上面的叫上腭,下面的叫下腭。上腭包括上唇、上齒、齒齦、硬腭、軟腭和小舌,下腭包括下唇和下齒,舌頭也附著在下腭上。舌頭又分為舌尖、舌面和舌根。上腭上面的空腔是鼻腔,軟腭和小舌處在鼻腔和口腔的通道上。軟腭上升時,鼻腔關閉,氣流從口腔通過,這時發出的聲音叫口音。軟腭下垂時,口腔中的某一部位關閉,氣流從鼻腔通過,這時發出的聲音叫鼻音。本課件是可編輯的正常PPT課件了解語音的產生語音產生的三個階段(1)發音(2)傳遞(3)感知本課件是可編輯的正常PPT課件了解語音的產生(1)發音一切聲音的產生都源于發音體的振動。發音體振動時,會擾動周圍的空氣或其他媒介,使之產生波動,這樣就形成了聲波。聲音可以由兩種方式產生:聲帶振動或聲道狹窄部所產生的渦流,聲音經過氣流通道所形成的共鳴系統或經過濾波器以后,頻譜發聲改變,在經過口唇和鼻腔時頻譜又發生改變。不同音位之間的差別可以是由于發聲源引起的,也可以是由于聲道的形狀和空氣柱的長度不同所引起的。本課件是可編輯的正常PPT課件了解語音的產生(2)傳遞聲波發生后經過一個共鳴系統,其頻譜可以發聲變化。這樣的共鳴系統相當于一個聲學濾波器,濾波器的作用可以用頻響曲線,既各個頻率的增益或輸出來表達。濾波在言語的產生過程中起了重要的作用。咽喉、口腔、牙齒、口唇、鼻腔組成了一個聲道,此聲道即為一個共鳴腔,對從氣管或聲帶發出的聲波進行濾波。之后,通過外部空氣的傳導,到達人的耳朵里,就產生了語聲的感覺。本課件是可編輯的正常PPT課件了解語音的產生(3)感知當聽話人的耳朵接收到說話人的言語聲時,聽覺神經系統便把內耳轉化成的電信號傳導至大腦皮層,被大腦感知。感知的內容包括語音的音高、音強,音長、音色和語調等復雜信息,聽話者從而能明確地判斷說話人的意思。本課件是可編輯的正常PPT課件了解語音的產生借助于語言,才能獲得經驗之外的信息,分享他人的經驗和體會,交流思想和情感的溝通。在社會發展的各個階段,語言的分化過程和統一過程起作用的結果,形成了多種語言。這就是具體語言的產生。本課件是可編輯的正常PPT課件PART03了解語音中蘊含的信息本課件是可編輯的正常PPT課件了解語音中蘊含的信息語音中蘊含的信息有哪些?本課件是可編輯的正常PPT課件了解語音中蘊含的信息人類語音所包含的信息可以分為三類,即“說什么”、“誰在說”和“如何說”。“說什么”是計算機語音識別的核心工作;“誰在說”是說話人識別的核心工作。而對于“如何說”這個細節,總是把它當成前面兩項中的噪聲來處理。人類的語音情感感知過程就是“如何說”所指的說話人的情感狀態,是語音的超語言信息。本課件是可編輯的正常PPT課件了解語音中蘊含的信息語音信息:發音人身份、語種、文本、情感、環境;語音任務:身份識別、語種識別、語音識別、情感識別、語音增強分離等。本課件是可編輯的正常PPT課件了解語音中蘊含的信息(1)語音中的語義信息語義信息是日常語言所說的信息,它不僅包括語言提供的信息,比如天氣預報,命題或描述語句,預言,科學理論......提供的信息,也包括其它事物提供的信息,例如:溫度表、天平、秤、GPS、數學公式、交通指示牌、疾病癥狀、化驗數據、圖片、視頻等提供的信息。從廣義上看,數據的含義就是語義,語義的概念應該包涵兩個方面的內容:1)語義信息和信號的含義及知識有關;2)語義信息可以包含在單個信號和命題中。本課件是可編輯的正常PPT課件了解語音中蘊含的信息(2)語音中的生理信息人類聲音的發出,是多個發音器官共同作用的結果,所以在語音中就包含了這些發音器官的生理信息,例如,當一個人感冒時,其發聲就有明顯的改變和特征。中醫中的“望聞問切”中,就明確說明了可以通過一個人的聲音信息來辨別生理的病變。一個人的聲音信息中還明確包涵了語言中的情緒信息。本課件是可編輯的正常PPT課件了解語音中蘊含的信息(3)語音中的聲紋信息聲紋(Voiceprint),是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以后,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終不相同。通常有七種聲紋圖:寬帶聲紋、窄帶聲紋、振幅聲紋、等高線聲紋、時間波譜聲紋、斷面聲紋(又分寬帶、窄帶二種)。其中,前二種顯示語聲的頻率與強度隨時間推移的變化特征;中間三種顯示語音強度或聲壓隨時間變化的特征;斷面聲紋只是顯示某一時間點上聲波強度和頻率特征的聲紋圖。本課件是可編輯的正常PPT課件了解語音中蘊含的信息(4)語音中的語種信息語言是人類用來交流的一種工具。但對人類語言差別的準確定義則是很困難的。據統計提供的人類語言數量是5561種,在這之外,已經有很多種語言文字在世界上消失了,也有很多小語種并為統計入列。其中使用人數超過去5000萬的語言有13種:漢、英、印度、俄、西班牙、德、日、法、印度尼西亞、葡萄牙、孟加拉、意大利和阿拉伯語。按被規定為官方語言或通用語言的國家數目來說,英語占第一位(約44國),法語第二(約31國),西班牙語第san約22國)被定為聯合國的正式語言的有五種:漢語、英語、俄語、法語、西班牙語。本課件是可編輯的正常PPT課件了解語音中蘊含的信息(5)語音中的邏輯信息邏輯是人類語言中所包含的,超越語義的深層次信息,是人類思維邏輯的具體表現形式之一,其與上下文相關、問答相關、大腦思維相關,通過對語言中邏輯信息的提取,可以研究一個人慣用的思維方式,甚至性格、氣質等。本課件是可編輯的正常PPT課件了解語音中蘊含的信息(6)語音中的空間信息人的語音以聲波形式由空氣作為媒介傳到對方,言語聲波的特性分析是現代語音學研究的最重要手段之一。言語聲波的研究,早期都由物理學家進行。20世紀初分析語音只能用一種特制的浪紋計畫出波形,用傅里葉分析尺對逐個周期的波進行測算,才得出表示聲波特性的頻譜和頻率。通常,為了研究語音中的聲學特性,會對語音中的聲學特征、言語波模式、過渡音征等進行分析和研究。本課件是可編輯的正常PPT課件了解語音中蘊含的信息(7)語音中的韻律特點語音的聲學特性除音色外,還有3種特性,如音強、音高、音長,總稱為語音的韻律特征,也可以稱為超音段特征,它們都可以用語圖儀或音強計、音高計等儀器來分析。音強顯示語音的重音、輕音等強弱變化,音高表現語音的字調與語調,而音長則對語言節奏的快慢,字與句之間的長短關系等加以準確地計量。用普通話、廣州話和上海話3種方言來朗讀一首古詩,會得到不同的窄帶語圖。除了音色不同之外,聲調的調形、變調的規律以及輕重音的分布都有很大的區別。韻律特征研究在提高人工言語合成的質量上起著決定性作用。聲學研究已致力于韻律特征的全面分析。本課件是可編輯的正常PPT課件了解語音中蘊含的信息(8)聽覺中的生理信息聽覺作為人類語音信息的接收端,有著重要的作用,是語音信息的天然的反饋形式,同樣的聲音,不同的人會解讀出不同的語義、空間等信息。一個人的生理聽覺取決于其HRTF函數情況。研究一個人的生理聽覺情況,對于語音全維信息圖譜的研究有著不可或缺的作用。本課件是可編輯的正常PPT課件感謝觀看初步了解語音2023年2月單元一了解數字語音單元一:任務2語音是一種非常有用的信息載體,人們一直在尋找可靠的記錄處理語音信號的方法。音樂盒是通過上發條的滾輪上不同位置的突起來帶動簧片發出事先設計好的樂音,這是通過機械的方法實現了語音信號的
記錄(有計劃地在滾輪上設置突起)、回放(簧片發出樂音)。留聲機、磁帶等是靠磁頭處的電位變化記錄或回放語音信號的。而隨著計算機技術的發展與普及,利用計算機處理語音信號已經被廣泛應用。項目導入目錄CONTENTS1什么是數字聲音2語音信號數字化3數字化語音存儲與回放系統本課件是可編輯的正常PPT課件知識目標理解什么是數字語音理解數字語音的采集、轉換、存儲和表達過程理解數字語音的專業術語本課件是可編輯的正常PPT課件能力目標能夠描述每個步驟的功能能夠描述每個步驟的具體目標能夠理解流程中涉及到的專業術語本課件是可編輯的正常PPT課件思政目標感悟腳踏實地、勤懇敬業、精益求精的大國工匠精神學習愛崗敬業的社會主義核心價值觀本課件是可編輯的正常PPT課件PART01什么是數字聲音本課件是可編輯的正常PPT課件什么是數字聲音什么是數字聲音?本課件是可編輯的正常PPT課件什么是數字聲音數字聲音——將表示聲音強弱的模擬電壓,用數字表示。如電壓1V用數字40表示,2V用80表示。通常,模擬聲音的幅度被放大器限制在一定幅度內。而在此幅度內,放大器輸出可以為無窮多個值,如1.2V,1.21V,1.213V等等。而當數字表示聲音幅度時,把無窮多個電壓值用有限個數字來表示。即把某一范圍內的電壓僅用一個數字表示,這稱之為量化。例如把1.2V到1.4V內的電壓表示成數字8。計算機內的基本數制是二進制,我們也要把語音數據寫成計算機的數據格式,這稱之為編碼。本課件是可編輯的正常PPT課件什么是數字聲音數字語音是以二進制編碼表示、存在計算機存儲器內的數據。模擬數字轉換器可以把模擬聲音轉換成數字聲音。數字模擬轉換器可以恢復出模擬聲音。本課件是可編輯的正常PPT課件什么是數字聲音數字聲音是如何實現的?數字聲音是由CA(ComputerAudition)算法系統轉化出來的,一個完整的CA算法系統應該包括的幾個步驟:(1)采集聲音數據(2)預處理:轉換成單聲道、重采樣、解壓縮(3)音頻分割:事件端點檢測(4)聲源分離:消除噪聲、信號增強(5)提取音頻特征:特征選擇、抽取,表征學習(6)機器學習/深度學習模型:分類或預測本課件是可編輯的正常PPT課件什么是數字聲音數字聲音有哪些應用場景?本課件是可編輯的正常PPT課件什么是數字聲音數字聲音有哪些應用場景?(1)醫療衛生(2)安全保護(3)交通運輸、倉儲(4)制造業本課件是可編輯的正常PPT課件PART02語音信號數字化本課件是可編輯的正常PPT課件語音信號數字化信息從物理特征上分為:模擬信號和數字信號模擬信號數字信號本課件是可編輯的正常PPT課件語音信號數字化本課件是可編輯的正常PPT課件語音信號數字化本課件是可編輯的正常PPT課件語音信號數字化本課件是可編輯的正常PPT課件經過編碼的信號就是PCM信號。PCM信號是計算機語言的數字信號,可以進行數字化傳輸和應用,但是轉換為初始的模擬信號,還需要進行解碼。解碼是用特定的方法將數字語音信號還原成它所代表的原始模擬語音信號(信息、數據等)的過程。解碼是編碼的反變換,在接收端將收到的PCM碼組還原為PAM信號,這個過程又稱數模變換(D/A變換)。語音信號數字化本課件是可編輯的正常PPT課件PART03數字化語音存儲與回放系統本課件是可編輯的正常PPT課件數字化語音存儲與回放系統數字化語音存儲與回放系統,是在語音信號處理技術的快速發展基礎上,利用數字語音電路來實現語音信號的數據存儲、還原等任務。數字化語音存儲與回放系統的基本原理就是對語音的錄音與放音的數字化控制,為了增加語音的存儲量,采用非失真壓縮算法對語音信號進行壓縮,壓縮以后再進行存儲處理,當進行播放的時候在進行解壓處理,同時還可以利用數字濾波來抑制雜音和干擾,以保證語音播放的質量。本課件是可編輯的正常PPT課件數字化語音存儲與回放系統數字化語音存儲與回放系統的主要思想是將模擬語音信號通過模數轉換器A/D轉換成數字信號,再通過單片機控制存儲在存儲器中,回放時,由單片機控制將數據從存儲器中讀出,然后通過數模轉換器D/A轉換成模擬信號,經放大在揚聲器或耳機上輸出語音,原理如圖所示:本課件是可編輯的正常PPT課件感謝觀看智能語音相關技術2023年2月單元二了解智能語音技術的應用單元二:任務1根據國際和國內行業發展數據分析,智能家居領域是當前智能語音技術最具有前景和巨大市場規模的應用場景。人們對家居環境的追求是舒適與溫馨。隨著科技的發展,家居中的電子設備越來越多,對電子設備的操控成為負擔,如尋找和使用各類遙控器、復雜的按鍵操作等。為了減少人們的負擔,提高舒適性,采用智能控制的家居產品應運而生,即通過統一的入口,對家居環境中的各類設備進行控制。從市場上己經可以看到,國外的巨頭們己先后以智能家居產品與智能語音技術相結合的方式進入智能家居領域,逐步取代了傳統的遙控器和手機App,使家庭設備進入智能化時代。國內海爾公司首創性推出了空調智能語音遙控器,用戶可以實現語音操控空調。海爾空調內置語音芯片,語音遙控器將用戶發出的語音控制命令,通過網絡發出,經過云端語音識別處理解析之后,根據解析出的關鍵詞控制空調的各種操作,包括溫控、開關機、自清潔、進入省電模式、換氣和除甲醛等,使用起來非常簡便。項目導入目錄CONTENTS1了解智能語音的相關概念2了解深度學習技術3設計基于語音控制的智能家居系統本課件是可編輯的正常PPT課件知識目標了解智能語音的主要應用掌握智能語音技術設計智能系統的思維了解語音中的深度學習技術本課件是可編輯的正常PPT課件能力目標能夠描述每個步驟的功能能夠描述每個步驟的具體目標能夠理解流程中涉及到的專業術語本課件是可編輯的正常PPT課件思政目標感悟腳踏實地、勤懇敬業、精益求精的大國工匠精神學習愛崗敬業的社會主義核心價值觀本課件是可編輯的正常PPT課件PART01了解智能語音技術的相關概念本課件是可編輯的正常PPT課件了解智能語音技術的相關概念智能語音技術已成為新一代的人機交互界面,在智能安防、智能家居、智能穿戴設備和智能車載系統等眾多場景都有應用。語音交互是既方便又高效的信息溝通方式。方便性體現在語音交互是一種無接觸溝通方式,可以解放雙手和眼睛;高效性體現在語音的信息傳遞效率遠遠領先于鍵盤輸入(人每分鐘平均可以說150個字,根據Ratatype的調查數據顯示,鍵盤打字的平均速度為每分鐘41個字)。因此,智能語音技術已成為新一代商用的人機交互技術。本課件是可編輯的正常PPT課件(1)智能語音交互智能語音交互是指利用語音實現人與機器之間的交流與互動,由語音識別、自然語言處理和語音合成三種技術構成。其中,語音識別技術負責將語音信號轉化為文字信號,其輸入是語音,輸出是文字;自然語言處理又稱為語義理解,是將文本解析為結構化的、機器可讀的語義信息,其輸入是文本,輸出是語義;語音合成技術負責將文字信號轉化為語音信號,其輸入是文本,輸出是音頻。了解智能語音技術的相關概念本課件是可編輯的正常PPT課件(2)智能語音產業智能語音產業是指利用智能語音交互技術,實現機器代替人工進行語音交互服務的產業。智能語音服務是指用戶通過語音向智能終端設備發出命令,從而獲得相應的服務,物聯網產業的發展刺激了智能語音服務的市場應用,智能語音產業成為信息技術領域的新興產業之一。國外主流的互聯網公司(微軟、谷歌、亞馬遜、Facebook)都在積極地布局智能語音市場。在智能家居應用領域,亞馬遜的Echo系列音箱就能控制插座、燈泡、空調、電視等家電設備,GoogleHome智能音箱同樣可以控制類似的系列智能硬件產品,為家庭自動化提供了一個良好的樣本,在智能語音控制的功能上往前邁進了一大步。了解智能語音技術的相關概念本課件是可編輯的正常PPT課件(2)智能語音產業國內的智能語音市場也呈現出快速發展的趨勢。例如在智能家電領域,國內主流的家電廠商之間競爭非常激烈,TCL、海爾、海信、長虹等各大傳統家電企業紛紛加大在智能家居領域的投入,推出各自的智能家電設備。我國語音產業聯盟的成立,進一步推動了智能語音產業鏈的快速發展。了解智能語音技術的相關概念本課件是可編輯的正常PPT課件(3)語音識別語音識別,通俗來講便是讓機器能夠理解人的講話內容,,其最終目的是實現人與計算機之間進行自然的語言通訊。語音識別技術的研究有語音機器翻譯、會議/廣播語音識別、音頻搜索等方向,通過語音識別技術,可以在工業、軍事、醫學、交通和旅游等領域實現人機交互。了解智能語音技術的相關概念本課件是可編輯的正常PPT課件(3)語音識別語音識別過程可分為兩個步驟:第一步是模型的“訓練/學習”階段,該階段主要使用語音學分析方法,將作為訓練集的語音以參數形式表示,最終得到語音特征向量,這些特征向量集就作為標準模式庫,也就是所謂的“模板”,這一步驟主要是用于構建語音識別的基本單元聲學模型與句法分析的語言模型。了解智能語音技術的相關概念本課件是可編輯的正常PPT課件(3)語音識別第二步是模型的“識別/測試”階段,提取測試集中的語音特征參數,以一定的比較準則與標準模式庫進行特征參數匹配,得出語音識別結果。語音識別系統可以根據以下幾種情況進行分類:根據的發音方式的不同,可以分為孤立字/詞語音識別系統、連接字/詞語音識別系統、連續語音識別系統和關鍵詞識別/檢測等;根據不同的說話人進行識別,可以分為特定人語音識別系統和非特定人語音識別系統; 根據識別詞匯量的大小,可以分為小詞匯量(100個詞以下)語音識別系統、中等詞匯量(100-500個詞)語音識別系統、大詞匯量(500個詞以上)語音識別系統。了解智能語音技術的相關概念本課件是可編輯的正常PPT課件(4)語義理解技術語音識別技術可以將人的語音轉換成文本信息,計算機需要通過對文本信息的進一步處理,才能理解語音中用戶所表達的意圖。語義理解最基本的技術是字符串匹配,例如在智能家居應用中,若解析到用戶命令的文本內容為“小藝,請打開空調”,語義理解系統只要從該文本中匹配到謂語“打開”和賓語“空調”兩個詞語,就可以確定該執行什么任務了。了解智能語音技術的相關概念本課件是可編輯的正常PPT課件(4)語義理解技術考慮到自然語言中表達同一種意思的方式有多種,單純的字符匹配技術難以理解用戶意圖,因此提出了詞法分析、詞義相似度計算和短文相似度計算等技術。詞法分析,用于解決文本結構化的問題。詞義相似度計算,用于解決用戶可能用不同的詞匯表達同一個意圖的問題。短文相似度計算,用于解決用戶對同一個意圖使用不同句式的問題。了解智能語音技術的相關概念本課件是可編輯的正常PPT課件(5)語音合成技術語音合成技術通常指文字到語音的轉換。通俗地說,語音合成技術相當于給計算機裝上了“嘴巴”,可以將任意的文字信息轉換為流暢自然的語音。隨著這幾年計算機計算能力不斷快速發展,語音合成技術當前已經非常成熟,在音質、自然度和復雜度等指標都己經大幅提升,可以模擬不同人聲,己經廣泛的應用在不同的領域,如智能導航和智能前臺等。目前語音合成的研宄重點是提高合成音的表現力,比如語氣和情感傳遞等,實現個性化定制合成。了解智能語音技術的相關概念本課件是可編輯的正常PPT課件PART02了解深度學習技術本課件是可編輯的正常PPT課件了解深度學習技術深度學習的概念源于人工神經網絡的研究,研究深度學習的動機在于建立模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本等。常用的深度學習的框架?本課件是可編輯的正常PPT課件了解深度學習技術(1)深度學習在語音技術中的應用基于深度學習技術的智能語音應用已經隨處可見,例如百度的小度、微軟的小冰、蘋果的Siri、亞馬遜的Alexa等應答機器人等。智能語音中涵蓋了語音識別、語義理解(自然語言處理)和語音合成等技術,下面逐一介紹。本課件是可編輯的正常PPT課件了解深度學習技術(1)深度學習在語音技術中的應用在自然語言處理中的應用。深度學習技術在信息抽取、命名實體識別(NER)、詞性標注、文本分類、語義分析等領域已經非常成熟。與傳統的自然語言處理方法相比,使用深度學習技術的自然語言處理能夠解決語言模型中的數據稀疏問題,且具有優化速度更快等諸多優勢。本課件是可編輯的正常PPT課件了解深度學習技術(1)深度學習在語音技術中的應用在語音識別領域的應用。深度學習在語音識別上的應用主要體現在語音數據的特征提取,從而獲得更加具有信服力的數據。應用如移動電話、免提計算、家庭自動化、虛擬輔助、以及視頻游戲等。本課件是可編輯的正常PPT課件了解深度學習技術(1)深度學習在語音技術中的應用在語音合成領域的應用。傳統的語音合成技術一般采用隱馬爾可夫模型來統計建模,主要分為參數合成和波形拼接兩大類。在實現和設計上依賴于復雜的流水線和大量音頻領域的專業知識,門檻較高,實現起來較為困難。基于深度學習的方法,則極大地簡化了傳統語音合成方法的復雜流程,降低了合成難度,為語音合成的研究開辟了一條新的道路。本課件是可編輯的正常PPT課件了解深度學習技術(2)深度學習的訓練方法深度學習的訓練方法包括監督學習、無監督學習、半監督學習以及強化學習。無監督學習使用的是沒有任何標簽標識的數據進行直接建模,最經典的算法是聚類算法。例如圖像處理中的傳統圖像分割技術,利用像素灰度(或顏色)的差異,將圖像中的像素分為目標區域和背景區域,如圖所示。又如對不同形態或不同類型的事物分類時,不需要提前對事物進行標注,就可以對這些事務進行準確的分類,如貓和狗、不同專業的書籍等。本課件是可編輯的正常PPT課件了解深度學習技術(2)深度學習的訓練方法本課件是可編輯的正常PPT課件了解深度學習技術(2)深度學習的訓練方法監督學習(SupervisedLearning)是指利用給定的訓練數據去訓練最優模型,然后通過這個模型將所有的輸入映射為輸出,從而達到分類的目的。在監督學習過程中,不僅提供事物的具體特征,還需要提供每個事物的名稱,即訓練數據要進行標注。本課件是可編輯的正常PPT課件了解深度學習技術(2)深度學習的訓練方法半監督學習(Semi-SupervisedLearning,SSL)是結合了大量未標記標簽和少量標簽數據的混合式深度學習網絡。強化學習(Reinforcementlearning,RL)也是使用未標記的數據,通過不斷地學習來獲得不同條件下的最優解,利用獎懲函數來反映與正確答案的接近程度,而不是有監督地直接告訴標準答案。本課件是可編輯的正常PPT課件了解深度學習技術(2)深度學習的訓練方法半監督學習(Semi-SupervisedLearning,SSL)是結合了大量未標記標簽和少量標簽數據的混合式深度學習網絡。強化學習(Reinforcementlearning,RL)也是使用未標記的數據,通過不斷地學習來獲得不同條件下的最優解,利用獎懲函數來反映與正確答案的接近程度,而不是有監督地直接告訴標準答案。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術神經網絡是由大量的神經元組合而成,這些神經元能夠像生物神經系統一樣對外界的刺激做出相應的反應。神經網絡領域里常見的模型由:深度神經網絡(DNN)、卷積神經網絡(CNN)、循環神經網絡(RNN)以及長短期記憶神經網絡(LSTM)。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術深度神經網絡(DeepNeuralNetworks,DNN)。可以理解為包含很多隱藏層的深層次神經網絡。可以將其內部的神經網絡層分為三層。即輸入層、隱藏層和輸出層,層與層之間是全連接的,也就是說,第i層的神經元與第i+1層的神經元都是相互連接的。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術深度神經網絡(DeepNeuralNetworks,DNN)。可以理解為包含很多隱藏層的深層次神經網絡。可以將其內部的神經網絡層分為三層。即輸入層、隱藏層和輸出層,層與層之間是全連接的,也就是說,第i層的神經元與第i+1層的神經元都是相互連接的。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術卷積神經網絡(ConvolutionalNeuralNetworks,CNN)。卷積神經網絡結構中的所有上下層神經元不再需要進行相互連接,這種結構模式這將大大減少參數的數量從而達到降低模型的復雜度的目的。這種無連接的結構很好的解決了網絡層數過多導致的過擬合問題。卷積神經網絡除了能夠使用逐層迭代,挖掘數據特征外還具備學習以及理解上下文信息的能力。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術卷積神經網絡(ConvolutionalNeuralNetworks,CNN)。卷積神經網絡結構中的所有上下層神經元不再需要進行相互連接,這種結構模式這將大大減少參數的數量從而達到降低模型的復雜度的目的。這種無連接的結構很好的解決了網絡層數過多導致的過擬合問題。卷積神經網絡除了能夠使用逐層迭代,挖掘數據特征外還具備學習以及理解上下文信息的能力。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術循環神經網絡(RecycleNeuralNetworks,RNN)具備對前文內容的記憶能力,即其不僅需要考慮當前輸入的內容還要考慮到之前輸入的內容。前面介紹的兩種神經網絡每層之間的結點是采用無連接的方式進行連接。RNN是為了刻畫一個序列當前的輸出與之前信息的關系,允許信息的持久化和下一刻節點的計算。循環神經網絡保留了從開始到結束的所有計算結果,并利用當前時刻之前的信息來影響當前時刻的輸出。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術循環神經網絡(RecycleNeuralNetworks,RNN)具備對前文內容的記憶能力,即其不僅需要考慮當前輸入的內容還要考慮到之前輸入的內容。前面介紹的兩種神經網絡每層之間的結點是采用無連接的方式進行連接。RNN是為了刻畫一個序列當前的輸出與之前信息的關系,允許信息的持久化和下一刻節點的計算。循環神經網絡保留了從開始到結束的所有計算結果,并利用當前時刻之前的信息來影響當前時刻的輸出。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術長短期記憶神經網絡(LongShortTermMemory,LSTM)是一種特殊的循環神經網絡,它的誕生是用于解決傳統循環神經網絡存在的長期依賴問題。LSTM設計的網絡結構模型是基于梯度學習算法,很好的解決了RNN中一直存在的長期依賴問題,能夠很好的記憶出現時間較長的歷史數據。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術長短期記憶神經網絡(LongShortTermMemory,LSTM)是一種特殊的循環神經網絡,它的誕生是用于解決傳統循環神經網絡存在的長期依賴問題。LSTM設計的網絡結構模型是基于梯度學習算法,很好的解決了RNN中一直存在的長期依賴問題,能夠很好的記憶出現時間較長的歷史數據。本課件是可編輯的正常PPT課件了解深度學習技術(3)神經網絡技術長短期記憶神經網絡(LongShortTermMemory,LSTM)是一種特殊的循環神經網絡,它的誕生是用于解決傳統循環神經網絡存在的長期依賴問題。LSTM設計的網絡結構模型是基于梯度學習算法,很好的解決了RNN中一直存在的長期依賴問題,能夠很好的記憶出現時間較長的歷史數據。本課件是可編輯的正常PPT課件PART03設計基于語音控制的智能家居系統本課件是可編輯的正常PPT課件設計基于語音控制的智能家居系統語音控制是智能家居設備最自然、最便捷的控制方式。智能家居中的智能語音控制過程包括:語音獲取(通過房屋中某個設備)、語音傳輸(通過無線網絡)、語音識別與語義的理解(通過云端)、控制設備完成操作(通過嵌入式系統),語音控制的實現流程如圖2.3所示,在此流程中包含了多種技術,包括語音獲取、語音識別、語義理解、面向智能家居的知識圖譜和家居設備控制等。本課件是可編輯的正常PPT課件設計基于語音控制的智能家居系統本課件是可編輯的正常PPT課件設計基于語音控制的智能家居系統任務流程:(1)針對宿舍某一智能控制場景,設計智能家居系統,畫出技術結構圖;(2)了解智能家居系統中常用的語音獲取設備,設計適合宿舍的語音獲取模塊;(3)了解智能家居系統中語音傳輸的實現方式,設計適合宿舍的語音傳輸模式;(4)根據前面所學知識,描述家居系統中采用的語音識別和語義理解的基本技術,并說明文本語料庫如何準備。(5)了解嵌入式控制器的使用,描述智能家居語音控制系統的控制部分是如何實現的。本課件是可編輯的正常PPT課件感謝觀看智能語音相關技術2023年2月單元二了解語音語料庫單元二:任務2語料庫構建的關鍵在應用,目的是支持本領域信息的處理。用于語音識別的語音庫和用于語音合成等目的的語音庫是不同的。用于語音識別的語音數據庫,是為聲學層提供訓練數據,它不僅涉及語言學,同時又要從語音學、聲學的角度出發,要全面反映出語音的聲學特性,為建立語音模型提供完備的數據。以語音合成為目的的語音數據庫,目的是實現文語轉換。文本設計時,應該從語言學、語音學的角度出發,主要體現語音數據中基頻、語音單元的長度、話音的停頓、能量等韻律信息,以便建立適當的語音韻律模型。項目導入目錄CONTENTS1了解語音語料庫的應用2了解情感語音語料庫3建立情感語音語料庫本課件是可編輯的正常PPT課件知識目標了解語音語料庫對于智能語音系統的重要性理解不同應用領域語音語料庫建立的差異了解語音語料庫的建立與運維本課件是可編輯的正常PPT課件能力目標能夠描述每個步驟的功能能夠描述每個步驟的具體目標能夠理解流程中涉及到的專業術語本課件是可編輯的正常PPT課件思政目標感悟腳踏實地、勤懇敬業、精益求精的大國工匠精神學習愛崗敬業的社會主義核心價值觀本課件是可編輯的正常PPT課件PART01了解語音語料庫的應用本課件是可編輯的正常PPT課件了解語音語料庫的應用語音語料庫是什么?本課件是可編輯的正常PPT課件了解語音語料庫的應用語音語料庫,也稱語音數據集,是指存儲在計算機存儲器的原始數據或經過處理后代有標注信息的語料文本。語料庫研究涉及原始數據的采集、存儲、加工和統計分析,目的是憑借大規模語料庫提供客觀全面的數據,支持語音處理系統的開發。本課件是可編輯的正常PPT課件了解語音語料庫的應用語音語料庫在語音識別和合成、語音分析等言語科學研究及技術應用中,是一種有效且不可或缺的研究手段,具有不可替代的作用。構建一個語音庫的框架首先要考慮它的使用目的,用于語音識別的語音庫和用于語音合成等目的的語音庫是不同的。基于語料庫的語音合成或識別系統中語音語料庫扮演者重要的角色,直接影響到語音合成或識別的質量與效率。本課件是可編輯的正常PPT課件了解語音語料庫的應用(1)語音合成中的語料庫基于大語音語料庫的語音合成技術己成為當前的主流。語音語料庫就相當于合成單元的"倉庫",為各種合成模型提供數據,以語音合成為目的的語音數據庫,是為了文語轉換,對其文本進行設計時,應該從語言學、語音學的角度出發,主要體現語音數據中基頻、語音單元的長度、話音的停頓、能量等韻律信息,以便建立適當的語音韻律模型。本課件是可編輯的正常PPT課件了解語音語料庫的應用(2)語音識別中的語料庫語音識別領域中,語音模型以及語言模型的訓練,其中關鍵的一歩工作就是選擇適合的語料對其進行訓練,用于語音識別的語音數據庫,是為聲學層提供訓練數據,對語料的要求就是要盡可能地覆蓋所有的語音語言現象,且數據不能太稀疏;同時又要從語音學、聲學的角度出發,要全面反映出語音的聲學特性,為建立語音模型提供完備的數據。本課件是可編輯的正常PPT課件了解語音語料庫的應用(3)情感語音數據庫情感語音數據庫是研究語音情感信息的基礎,能夠為情感語音的分析和建模提供大量的分析、訓練和測試用語料數據。對語音情感相關特征的探討,進行語音情感識別和合成的研究都必須以高質量的語音數據庫為基礎展開。真實可靠的情感數據對情感建模具有重要意義,被研究學者普遍認可的理想情感數據庫建立原則主要有四條:本課件是可編輯的正常PPT課件了解語音語料庫的應用(3)情感語音數據庫a) 真實性:數據庫中的樣本必須是人們所經歷過的真實的情感體驗。b) 交互性:為了更接近于人機語音情感交互的研究目的,數據庫中的情感素材必須是人與人之間交互過程中產生的。c) 連續性:情感素材必須在連續的情感場景中產生的,存在著多種情感狀態的轉移。d) 豐富性:數據庫中的情感素材必須包含多媒體信息,如聲音,表情等。滿足以上原則的大量情感語音數據的采集是一項很困難的工作,因為帶有情感的語音數據不能像話者正常情況下的語音數據可以隨時獲得,很難滿足研究過程中對于說話人、文本和情感類別等的要求。目前語音情感研究領域的情感數據庫只是盡量的滿足而不是恪守以上原則。本課件是可編輯的正常PPT課件了解語音語料庫的應用(4)數據庫管理系統為了實現語料庫的建立與運維,需要設計數據庫管理系統,將整個系統合理地劃分為各個功能模塊。通常采用C/S系統架構,包括四個功能模塊:用戶管理模塊、錄音模塊、數據庫運維模塊和語料下載模塊。本課件是可編輯的正常PPT課件了解語音語料庫的應用(4)數據庫管理系統用戶管理模塊完成兩方面的功能,一是登記注冊和維護用戶的個人信息,二是確保注冊后的用戶和管理員以合法的身份登錄,獲取自己的相應權限;錄音模塊完成錄音設備初始,提示用戶選擇相應的文本開始錄音,并存儲文件至服務器;語料庫運維模塊實現對用戶、語料文本、語音文件和標注文件等的管理;下載模塊為用戶提供接口,可以選擇滿足條件的數據進行下載。本課件是可編輯的正常PPT課件PART02了解情感語音語料庫本課件是可編輯的正常PPT課件了解情感語音語料庫(1)情感的描述建立情感語音數據庫,首先必須確立情感的類別,以及分類方法。人類的情感是一種極其復雜的現象,要對其進行準確的定義,精確的分類并不是很容易。情感分類問題的研究是有趣而復雜的,已有許多學者就該問題進行了深入的探討,盡管目前為止還沒有達成統一,但是主要觀點間是相互融合和交叉的,這也正表現了情感本身的多樣性和復雜性。心理學中情感測量理論有兩種觀點,維度型和范疇型,而目前在語音情感信息處理領域最活躍的情感理論模型是與之對應的兩種模型:空間情感模型、離散情感模型。本課件是可編輯的正常PPT課件了解情感語音語料庫(1)情感的描述空間情感模型是在連續的空間中描述情感,對應于維度型。該模型認為情感具有基本緯度,這些維度組成的空間包括人類所有的情感,任何一種情感都可以在此緯度空間中找到其特定的位置,不同情感間的相似性和差異性可依據彼此在維度空間中的距離來表示,情感間的轉變是逐漸的、平滑的。不同研究者所采用的維度也是不同的,其中最廣為接受的緯度模式是Activation-Evaluation二維空間。激活度(Activation),指與情感狀態相聯系的機體能量激活程度;評估度(Evaluation),指正負情感的分離激活,反映了對某一事物正面的活負面的評價,如舒適的或不舒適的,贊同的或不贊同的。本課件是可編輯的正常PPT課件了解情感語音語料庫(1)情感的描述Activation-Evaluation情感空間本課件是可編輯的正常PPT課件了解情感語音語料庫(1)情感的描述在大多數的研究方法中,研究者都是用日常語言標簽來標識和分類情感,這樣就將情感分類描述為離散模型。在離散情感模型中,每種情感都是一個離散的實體。根據情感的純度和原始度,可以將其分為兩大類:基本情感和派生情感。對于基本情感的界定存在很多不同的看法,但是有四種基本情感得到最普遍認可,分別是恐懼、憤怒、悲傷和高興,其次被認可的是厭惡和驚奇。中國傳統上涉及的基本情感類型可以歸納為七類:好(愛,敬)、惡、喜(樂)、怒、哀、懼、欲。漢語情感語音數據庫中使用較多的是離散情感模型,選擇的情感為:驚奇、害怕、高興、悲傷、厭惡和生氣等六種。本課件是可編輯的正常PPT課件了解情感語音語料庫(2)情感語料庫的設計規范對語音語料庫的研究首先要規定語音語料庫的規范,這樣才能保證以后的語音語料的質量。一般從發音人規范、數據采集規范、數據存儲規范、語料篩選規范、語料標注規范、法律聲明等方面對語料庫進行規范。本課件是可編輯的正常PPT課件了解情感語音語料庫(2)情感語料庫的設計規范語音中混合了說話內容、說話人個體特征和情感狀態等信息。與情感狀態相關的語音信號特征,如語音中某些韻律特征,往往也受到說話人個體特征和說話內容的影響,研究語音情感信息的難度也隨著這些干擾的增多而越來越大,所以對語音情感信息的研究是從限制說話人,說話內容逐步擴展到與說話人、說話內容無關的。情感語料庫依據這一思路,通過不斷豐富不同說話人、說話內容(即文本信息)的樣本來建立并完善,所以在建立過程中需要對說話人,說話內容和情感狀態進行定制。本課件是可編輯的正常PPT課件了解情感語音語料庫(2)情感語料庫的設計規范BHU情感語料庫的定制要求如下:說話人:年齡在20~30歲之間,文化程度在大學以上,男女不限。情感:憤怒、喜悅、悲傷、厭惡、驚奇、恐懼。說話內容:20句沒有情感狀態傾向的中性語句,長度在3~12字之間。本課件是可編輯的正常PPT課件了解情感語音語料庫(2)情感語料庫的設計規范本課件是可編輯的正常PPT課件了解情感語音語料庫(3)情感狀態激發情感語音數據按照自然度的高低分為:自然型、引導型和表演型。自然型情感語音是說話人表達真實情感的自然語音,要求在說話人沒有察覺被錄音的理想情況下獲得,這樣獲得的樣本是完全放松和自然的情感語音。考慮達到理想狀態的難度,錄制工作是極其耗時耗工的,且容易涉及到法律和版權的問題。本課件是可編輯的正常PPT課件了解情感語音語料庫(3)情感狀態激發現有語音情感研究絕大部分不是自然型的,而是引導型或表演型,即情感語音采用讓說話人模仿不同的情感朗讀指定的句子來獲得。二者區別在于:前者是通過設置好的場景讓說話人在語音表達之前達到與期望一致的情感狀態,后者不設置場景由說話人憑著自己的經驗來表達情感語句。由于情感的產生不可避免地受到說話人經歷、經驗的影響,所以所采集到的語音很難區分是引導型的,還是表演型的。本課件是可編輯的正常PPT課件PART03建立情感語音語料庫本課件是可編輯的正常PPT課件建立情感語音語料庫針對不同應用需求,語料庫的設計有很大的差異。本節以情感識別應用為目標,來設計和制作語料庫。具體完成:(1)需求調研與確定語料庫建立整體思路;(2)設計語料庫文本;(3)準備錄音環境;(4)利用數據庫管理系統實現語料存儲和運維。本課件是可編輯的正常PPT課件建立情感語音語料庫(1)語料庫的建立首先向用戶展示錄音文本供用戶選擇;其次就是初始化本機的錄音設備,并開始錄音;最后將用戶信息、錄音文件、文本信息作為參數傳遞回服務器并保存。
在錄音過程中,保證測試環境的絕對安靜。測試時被試者不能隨便移動,周圍不能發出聲響。被試者以盡量真實的情感表達出不同的區分度較高的情感狀態,不需要過分夸張的成分,可以通過設置不同的場景來引導說話人達到與期望一致的情感狀態,但是并不是每個說話人都必須通過設置的場景來產生特定的情感,說話人也可以通過加入自己的經驗來表達某一情感狀態。本課件是可編輯的正常PPT課件建立情感語音語料庫(1)語料庫的建立情感語音數據錄制實驗的干擾因素很多,在錄制實驗進行之前對可能遇到的干擾要盡量避免,不能消除的也要作為實驗數據進行保存。為建立高質量的情感語音數據庫,對錄制工作制定了規范:本課件是可編輯的正常PPT課件建立情感語音語料庫(1)語料庫的建立a) 天氣:天氣會對人的心情產生影響,容易影響對說話人情感狀態的誘導。可以選擇在溫度和濕度分別在26度和50%左右的室內環境中進行錄制實驗,保證天氣條件的連續性,并記錄溫濕度數據,為日后的研究提供參考。b) 錄音環境:錄音實驗在一個安靜的房間進行,避免干擾。c) 錄音設備:錄音設備可以采用配備聲卡的筆記本電腦。實驗表明,放置式錄音設備不利于說話人情感狀態的自然表達,因此正式實驗采用的均為頭戴式麥克風。d) 錄音軟件:可采用GOLDWAVE完成錄音工作,此外,它還可用于音頻文件的剪輯。e) 錄音格式:采樣率為11025Hz,雙通道、16Bit量化,格式為PCM。本課件是可編輯的正常PPT課件建立情感語音語料庫(1)語料庫的建立錄制語音時,要求說話人用特定的語句(20句不帶有情感傾向的語句)表達特定的情感狀態(6種基本情感和無情感傾向的中性狀態),情感狀態的產生可以通過設置場景誘發,也可以借助自己的經驗表演。錄制完成后,采用說話人自判斷的形式肯定樣本,即每個樣本錄制后,均通過說話人聽判實驗,由說話人肯定樣本表現了所要求的情感狀態,才確認收集該樣本。本課件是可編輯的正常PPT課件建立情感語音語料庫(2)情感語音數據庫的管理隨著情感語音數據的豐富,標準化的管理是必須的。服務于語音情感信息研究的語音情感數據,需要的不僅僅是語音數據本身,發音人信息、文本信息都將為研究的逐步深入提供資料。為此,需要制定語音情感數據管理規范,按照規范保存相關信息,以保證能為研究的深入和擴展提供真實可靠的資料。本課件是可編輯的正常PPT課件建立情感語音語料庫(2)情感語音數據庫的管理本課件是可編輯的正常PPT課件建立情感語音語料庫(3)情感語音評價人類能夠通過語音判斷說話人的情感狀態,即進行語音情感識別,但是,這種判斷并不是可以完全信賴的。經過說話人本人判斷肯定的情感樣本,也不一定能被其他聽音者準確判斷出情感狀態。研究表明,人類通過語音對陌生人進行情感狀態判斷的正確率只有60%[19],情感狀態的表達和判斷都受到人本身情緒和經驗的影響,這大大增加了情感語音數據評價的難度。目前,還沒有一個統一的標準用來評測實驗用情感數據的真實性,通常都是采用主管評測的方法,即由錄制情感數據以外的若干人通過聽測實驗進行情感真實度評測,為此語料庫運維模塊需要完成情感語音評價功能,通過大量聽取實驗獲得豐富的評測數據,以得到對情感語音數據的真實可靠評價結果。本課件是可編輯的正常PPT課件建立情感語音語料庫(3)情感語音評價為了滿足數據管理的需求,模塊應具有評測人信息管理,情感語音數據管理,情感語音評測數據管理,在線聽評情感語音數據四部分組成,能夠方便高效的收集情感語音的評測信息。本課件是可編輯的正常PPT課件感謝觀看智能語音相關技術2023年2月單元二實現語音數據標注單元二:任務3數據標注是大部分人工智能算法得以有效運行的關鍵環節。數據標注越準確、標注的數據量越大,算法的性能就越好。為推進語音識別相關應用高質量落地,數據服務商需要對語音數據的采集、清洗、信息抽取、標注、質檢、管理等環節進行更加精細的把控,以提供出更高質量的語音數據集,從而提高語音算法模型訓練效果。項目導入目錄CONTENTS1了解數據標注的基礎知識2了解語音標注的工具本課件是可編輯的正常PPT課件知識目標了解語音數據標注在智能語音技術中的重要意義理解語音數據標注的方法與分類熟悉利用相關工具實現語音數據標注的流程本課件是可編輯的正常PPT課件能力目標能夠描述每個步驟的功能能夠描述每個步驟的具體目標能夠理解流程中涉及到的專業術語本課件是可編輯的正常PPT課件思政目標感悟腳踏實地、勤懇敬業、精益求精的大國工匠精神學習愛崗敬業的社會主義核心價值觀本課件是可編輯的正常PPT課件PART01了解數據標注的基礎知識本課件是可編輯的正常PPT課件了解語音標注的基礎知識語音標注的意義是什么?本課件是可編輯的正常PPT課件了解語音標注的基礎知識(1)語音標注的意義完整的語音語料庫,不僅要有原始語音數據、對應的發音文本,而且需要有對應的標注文件。要提高語音語料庫的利用價值,關鍵是對語音語料庫進行完整的標注。即語料庫既要包含反映語音學現象的適量的錄音數據,轉寫文本,還要包括完備、準確的標注信息,才能充分有效地發揮語料庫的效能。本課件是可編輯的正常PPT課件了解語音標注的基礎知識(1)語音標注的意義標注是對語音、圖片、文本、視頻等原始數據進行加工處理,并轉換為機器可識別信息的過程。語音標注的主要工作內容是將語音中包含的文字信息、各種聲音“提取”出來,進行轉寫或合成,標注后的數據主要用于機器學習。語音數據標注主要是根據用戶或企業的需求,對語音數據進行不同方式的標注,從而為不同場景的智能系統提供訓練數據。本課件是可編輯的正常PPT課件了解語音標注的基礎知識(2)語音標注的分類按照標注方式的不同,語音標注分為人工標注和機器標注兩類。人工標注是指雇用經過培訓的標注員進行標注,特點是標注質量高,然而標注成本高、時間長、效率低;機器標注的標注者通常是智能算法,特點是標注速度快,成本相對較低,但是算法對涉及高層語義的對象識別和提取效果不好。本課件是可編輯的正常PPT課件了解語音標注的基礎知識(2)語音標注的分類按照應用領域不同,語音標注分為針對語音識別的標注、針對語音合成的標注、針對說話人識別的標注和針對情感識別的標注。針對語音識別的標注是通過算法模型識別轉錄后的文本內容并與對應的音頻進行邏輯關聯,常用方法是語音轉寫;針對語音合成的標注,首先需將文本內容按句斷開,然后對每一句中的具有獨立意義的詞進行分隔,分隔出來的獨立詞再按音節進行劃分。進行音節劃分時一定要注意重讀音節的位置,最后針對每一個音節進行音素切割,判斷每個音節內所包含的音素;針對說話人識別的標注除了標注聲學特征外,還為每條語音增加說話人標簽;針對情感識別的標注除了標注基本的漢字轉換和音節等信息外,還標注與清音、靜音、濁音、情感、副語言信息和重音等相關的信息。本課件是可編輯的正常PPT課件了解語音標注的基礎知識(3)語音標注的規范傳統手工數據標注中的用戶角色可以分為標注員、審核員和管理員3類,各個角色之間相互制約,各司其職。標注員通常由經過一定專業培訓的人員來擔任,負責標注數據;審核員往往由經驗豐富的標注人員或權威專家來擔任,負責審核已標注的數據,完成數據校對和數據統計,適時修改錯誤并補充遺漏的標注;管理員負責管理相關人員,發放和回收標注任務。在進行語音標注時,語音數據發音的時間軸與標注區域的音標必須同步,標注與發音時間軸的誤差要控制在1個語音幀以內。如果誤差超過1個語音幀,則很容易標注到下一個發音,從而產生更多的噪聲數據。本課件是可編輯的正常PPT課件了解語音標注的基礎知識(4)音段標注和韻律標注語音語料庫的標注過程是一個語言知識形式化的過程。語音庫的標注質量以及標注深度直接影響到從語音語料庫中發掘信息的準確性、豐富性,很大程度上決定了語音語料庫的可利用性和價值,完整的標注系統包括音段標注和韻律標注。本課件是可編輯的正常PPT課件了解語音標注的基礎知識(4)音段標注和韻律標注本課件是可編輯的正常PPT課件了解語音標注的基礎知識(4)音段標注和韻律標注音段標注。就是把連續語流中的每個語音單元(句子、詞、字、音節、聲韻母、音子)進行分割,并且描述它們的音色特征。在流利順暢的連續語音流當中,音段的將會表現出和孤立字、詞有著很大差別的聲學表現。在語音的語速、語境和韻律等相關因素的共同影響下,它們會呈現出十分復雜的結合和變異,在這個過程當中就可能出現各種音段音變現象,比如減音、增音、音素替換等多種不同的表現形式。連續語音流固有的多變性和復雜性將會對音段注音工作增加了不少的難度。良好的注音就需要高水平的音段標注,這也就要求不僅需要對語音正則讀音的標注同時要標注出在實際應用對話當中所可能表現出來的語音現象和形式方法,在此過程當中特別需要對音段音變進行細致、準確的描述。本課件是可編輯的正常PPT課件了解語音標注的基礎知識(4)音段標注和韻律標注韻律標注。韻律是文本對應的聲音的發音節奏和規律,同一句話,不同的韻律結構對應著不同的發音,表達著不同的含義。從文本上來說,韻律是(韻律)詞和短語的邊界;從語音上來說,一般認為韻律有三個特征表征,時長、音高和音強。在語音合成中,為了讓合成的語音更符合我們的“預期”,常常需要韻律的支持,也就是需要一些時長、音高和音強的控制能力,使文本表義更明確。本課件是可編輯的正常PPT課件PART02了解數據標注的工具本課件是可編輯的正常PPT課件了解語音標注的工具(1)商業語音標注平臺商用的數據標注工具一般是由眾包標注平臺來提供。如國外的亞馬遜MechanicalTurk、Figure-eight、CrowdFlower、MightyAI等初創型標注平臺,國內的數據堂、百度眾測、阿里眾包、京東微工等互聯網公司、大數據公司和人工智能公司推出的數據標注眾包平臺和商用標注工具,這些商業的數據標注平臺基本上都能對圖片、視頻、文本和語音等數據進行標注,但各自的業務方向也有一定側重。本課件是可編輯的正常PPT課件了解語音標注的工具(2)開源的數據標注工具常用的語音標注工具有Praat、精靈標注助手和VGG(visualgeometrygroup)的多功能標注工具VIA等。Praat是一種常見的語音標注工具,全名:doingphoneticsbycomputer,是一款跨平臺的多功能語音學專業軟件,能夠對語音信號進行分析、標注、處理及合成等實驗,同時生成各種語圖和文字報表。本課件是可編輯的正常PPT課件了解語音標注的工具(2)開源的數據標注工具Praat可以完成如下功能:語音實驗:嗓音分析、多重強迫選擇實驗、濾波、聲源濾波合成、發音合成等。輔助教學:前饋神經網、優選論學習等。統計分析:主成分分析、多維量表、判別分析等。本課件是可編輯的正常PPT課件了解語音標注的工具(2)開源的數據標注工具Praat軟件由核心與外圍兩層構成。核心層負責語音信號處理任務的程序,包括所有的對象類型(Typesofobject)、動作命令(Actioncommands)和相應的編輯器(Editors)。外圍主要包括對象窗口(標題為Praatobjects)、畫板窗口(標題為Praatpicture)、腳本編輯器(ScriptEditor)、按鈕編輯器(ButtonEditor)、數據編輯器(DataEditor)、情報窗口(Infowindow)和手冊(Manual)等輔助性組件。本課件是可編輯的正常PPT課件了解語音標注的工具(2)開源的數據標注工具Praat軟件每次啟動時,自動打開對象窗口和畫板窗口。對象窗口也是軟件的主控窗口,在會話進程中始終打開,大部分功能也需要由此展開。腳本(script)是在軟件中執行各種操作的宏命令,能夠簡化日常操作,減少出錯,并實現大量復雜操作的自動化。本課件是可編輯的正常PPT課件了解語音標注的工具(3)標注平臺的功能1)進度條:用于指示數據標注的進度,一方面方便標注人員查看進度,另一方面也利于統計;2)標注主體(指需要標注的對象):可以根據標注形式進行設計,一般可以分為單個標注(指對某一個對象進行標注)和多個標注(指對多個對象進行標注)的形式;3)數據導入、導出功能;4)收藏功能:針對模棱兩可的數據,可以減少工作量并提高工作效率;5)質檢機制:通過隨機分發部分已標注過的數據,檢測標注人員的可靠性。本課件是可編輯的正常PPT課件感謝觀看語音識別技術應用2023年2月單元三理解語音識別開發技術框架單元三:任務1記得在上小學時,老師就經常教導我們“好記性不如爛筆頭”,不同的是以前我們用在學習上,現在應用在學習、工作和生活的方方面面,比如現在各種會議上。不過這招兒用久了,我們會發現原來“爛筆頭”其實也有Bug,那就是我們記錄的速度跟不上老師或者會議發言者的講話速度,時常記錄完上句忘了下句,雖然我們可以在記錄的同時進行錄音,可以保證信息的完整性,但是會后聽著錄音重新梳理會議信息也是一項龐大的工程。每當這時大家是不是都會想,如果有一種科技產品,能夠幫我們把會議上的發言,或者課堂上的內容自動整理成文字,那么對于我們做記錄而言,無疑是錦上添花,隨著技術進步,錄音筆的出現剛好解決了這些難題,應用語音識別技術準確迅速的將聲音轉化為文字,可以有效提高學習和工作的效率。項目導入目錄CONTENTS1語音識別技術的內涵與術語2語音識別的技術框架3實現語音識別功能本課件是可編輯的正常PPT課件知識目標了解語音識別的概念及發展掌握語音識別的技術框架了解語音識別的開放接口使用本課件是可編輯的正常PPT課件能力目標能夠描述每個步驟的功能能夠描述每個步驟的具體目標能夠理解流程中涉及到的專業術語本課件是可編輯的正常PPT課件思政目標感悟腳踏實地、勤懇敬業、精益求精的大國工匠精神學習愛崗敬業的社會主義核心價值觀本課件是可編輯的正常PPT課件PART01語音識別技術的內涵及術語本課件是可編輯的正常PPT課件語音識別技術的內涵及術語語音識別技術又稱自動語音識別(AutomaticSpeechRecognition),是將聲音轉化成文字的一種技術,主要是將人類語音中的詞匯內容轉換為計算機可讀的輸入,一般都是可以理解的文本內容,也有可能是二進制編碼或者字符序列。相當于人類的聽覺系統,該技術使得機器擁有聽懂他人說話的內容并將其轉換成可以辨識的內容的能力。語音識別的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域,是人機自然交互中的關鍵環節。本課件是可編輯的正常PPT課件語音識別技術的內涵及術語本課件是可編輯的正常PPT課件語音識別技術的內涵及術語從開始研究語音識別技術至今,語音識別技術的發展已經有半個多世紀的歷史。1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數字發音的實驗系統,能夠理解口頭數字的機器Audrey。1960年英國的Denes等人研究成功了第一個計算機語音識別系統。本課件是可編輯的正常PPT課件語音識別技術的內涵及術語大規模的語音識別研究是在進入了70年代以后,在小詞匯量、孤立詞的識別方面取得了實質性的進展。1971年到1976年,DARPA投資了進行了五年的語音識別研究,目的是做成一臺至少能理解1000個單詞的機器。該計劃使卡內基梅隆大學創造了一臺能夠理解1011個單詞的機器。進入80年代以后,研究的重點逐漸轉向大詞匯量、非特定人連續語音識別。在研究思路上也發生了重大變化,即由傳統的基于標準模板匹配的技術思路開始轉向基于統計模型(HMM)的技術思路。此外,再次提出了將神經網絡技術引入語音識別問題的技術思路。本課件是可編輯的正常PPT課件語音識別技術的內涵及術語進入90年代以后,在語音識別的系統框架方面并沒有什么重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。2010年,機器學習算法和計算機性能的進步帶來了更有效的訓練深層神經網絡(DNN)的方法。因此,語音識別系統開始使用DNNs,更具體地說,是使用一種DNNs的特殊變體,即循環神經網絡(RNNs)。此后,基于RNNs的模型表現出比傳統模型更好的精度和性能。2016年的語音識別準確度達到了90%,Google在2017年6月聲稱已達到95%的準確率。本課件是可編輯的正常PPT課件語音識別技術的內涵及術語語音識別技術經過幾十年的發展,在中英文發音標準程度、口語表達能力等識別任務上已經超越了人類口語識別專家水平,目前該技術被普遍使用在中英文的口語識別和定級中。本課件是可編輯的正常PPT課件PART02語音識別的技術框架本課件是可編輯的正常PPT課件語音識別的技術框架一個完整的基于統計的語音識別系統大致分為3部分:語音信號預處理與特征提取、聲學模型與模式匹配和語言模型與語言處理。本課件是可編輯的正常PPT課件語音識別的技術框架語音信號為什么要進行預處理,預處理一般都有哪些方式?本課件是可編輯的正常PPT課件語音識別的技術框架語音識別所輸入的音頻文件格式是未經壓縮處理的文件,如人類正常的語音輸入。由于實際場景中語音輸入所面對的環境是復雜的,主要存在以下問題:一、對自然語言的識別和理解。首先必須將連續的講話分解為詞、音素等單位,其次要建立一個理解語義的規則。二、語音信息量大,語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個說話人在隨意說話和認真說話時的語音信息是不同的。一個人的說話方式隨著時間變化。三、語
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論