




已閱讀5頁,還剩8頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第 1 頁 共 13 頁 美國科羅拉多州大學關于在噪聲環境下對大量連續語音識別系統的改進 -噪聲環境下說話聲音的識別工作 簡介 在本文中,我們報道美國科羅拉多州大學關于噪聲環境下海軍研究語音詞匯系統方面的最新改進成果。特別地 ,我們介紹在有限語音數據的前提下,為了了解不確定觀察者和變化的環境的任務 (或調查方法 ),我們必須在提高聽覺和語言模式方面努力下工夫。在大量連續詞匯語音識別系統中 ,我們將展開 MAPLR 自適應方法研究。它包括單個或多重最大可能線形回歸。當前噪聲環境下語音識別系統使用了大量聲音詞匯識別的聲音識別引擎。這 種引擎在美國科羅拉多州大學目前得到了飛速的發展,本系統在噪聲環境下說話聲音系統 (SPINE-2)評價數據中單詞錯識率表現為 30.5%,比起 2001 年的 SPINE-2 來 ,在相關詞匯錯識率減少16%。 1. 介紹 為獲得噪聲環境下的有活力的連續聲音系統的聲音,我們試圖在藝術的領域做出計算和提出改善,這個工作有幾方面的難點:依賴訓練的有限數據工作;在訓練和測試中各種各樣的軍事噪聲存在;在每次識別適用性階段中,不可想象的聽覺溪流和有限數量的聲音。 在 2000 年 11 月的 SPIN-1 和 2001 年 11 月 SPIN-2 中,海軍研究詞匯通過 DARPT 在工作上給了很大的幫助。在 2001 年參加評估的種類有: SPIIBM,華盛頓大學,美國科羅拉多州大學, AT&T,奧瑞哥研究所,和梅隆卡內基大學。它們中的許多先前已經報道了 SPINE-1和 SPLNE-2 工作的結果。在這方面的工作中不乏表現最好的系統 .我們在特性和主模式中使用了自適應系統,同時也使用了被用于訓練各種參數類型的多重聲音平行理論 (例如 MFCC、PCP 等 )。其中每種識別系統的輸出通常通過一個假定的熔合的方法來結合。這種方法能提供一個單獨的結果,這個結果的錯誤率將比任何一 個單獨的識別系統的結果要低。 美國科羅拉多州大學參加了 SPIN-2 和 SPIN-1 的兩次評估工作。我們 2001 年 11 月的SPIN-2 是美國科羅拉多州大學識別系統基礎上第一次被命名為 SONIC(大量連續語音識別系統 )的。在那次評估中,我們單獨的最好的系統在 9x 的實時性的解碼速率下,有 37.5%的錯誤率,在那篇論文中,我們描述了當前在通常識別系統發展的形式和工作依靠模式方面的改進 .我們之所以關心這些問題,是因為這些問題是關系到在單獨識別系統下降低噪聲環境下說話聲音的錯識率,而不考慮那些工作中的識別融合問題 。 2. 噪聲環境下說話者工作任務 . 這個在噪聲環境下的語音工作任務采用了 ARCON 通信實踐 ,本實踐的發展是源于測試第 2 頁 共 13 頁 通信系統和在戰略航中偽裝工作的說話音之間的合作,一個起發射辦公者的作用 (例中 ,武器控制系統,一個激光火炮和能源 );另一個起接受辦公者的作用 (例如雷達和聲納裝置 )。每個角色在隔離房間中單獨發聲 ,使用軍事設備和一個適當的用于模仿的聲音裝置設備。在這次訓練中,兩個參與者通過查清和證實柵欄 (格子 )的位置 (x 軸 ,y 軸坐標 )去搜索和破壞目標。這種位于 SPINE 2 中的格子能從診斷測試中組成含糊的句子。 SPINE 2 工作需要,這個格子位置的作用是組成了最小含糊軍事用語 (對話 )。在每次過程中 ,通過典型的大聲說話者 ,軍事的噪聲環境被描述。這個 SPINE 1 的評估數據包括六個噪聲環境: 1.飛機攜帶控制決定中心 2.AWACS 飛機 3.一個軍事工具 (媒體 ) 4.一個軍事領域 5.一個辦公環境 6.一個安靜環境。 SPINE 2 通過考慮增加到軍用坦克和直生機環境下的各種噪聲類型擴展了SPINE 1 的數據。當通過一個類似通信通道的環境中時 ,每一種類型中來的噪聲被通過頭部損壞的麥克風記錄。在本文中 ,我們僅考慮沒有編碼的 聲音頻道中的說話聲識別系統。 3. 這個大量連續語音識別系統的 ASR 引擎 . 3.1 當前 ASR 的體系設計 我們當前用于實踐的 2001 年 11 月的 SPINE-2 是應用了 SONIC 而設計的。即美國科羅多州大學大量連續說話聲系統。 SONIC 是基于連續密度的隱馬爾可夫聲音模式。背景依靠三角電話,聲音模式是依靠決定樹的。每種模式有三個發射地域(空間),用 倫琴 可能密度功能作為過度模式。特征參數被提取 ,(例如 12 個 MFCC 參數,能量和這些參數第一 .第二方面的不同點)從而得到一個 39 維的特征向量(參數)。這個網絡的研究工作 落在重構一個穩態樹。這個識別器包含一項兩個通往研究的目標。其中第一個過程包含時間同步。被用于研究的 迭代 的 修剪梁。允許通過的聲音模式和 3.4 種語法 .語言模型(用一個大概的有效的方式)在第一個過度模式中被引用。第一個過程給出了句子結束點的框架。在第二個過程中,這個句子格子結果被改變成一個句子表 /串。先進的語言模式(例如活動句子和基礎概念)能被用作重新劃分使用 A*算法的句子表或為獲得滿意的結果去計算 .預測句子的后驗概率。 SONIC 提供了一個整體的環境。這個環境包括合成語音活動搜索,說話聲增加和各種特征及 模式基礎適應的一般方法。這個識別設計為快速通往新的語言環境提供支持。在 2002年里, SONIC 從英語識別中被推廣到西班牙語和日語等等語言中去了。 3.2 當前意義上的提高 我們 2001 年的 SPINE 2 系統代表(象征)了我們在大量連續語音識別系統方面的最初成就。這個系統目前使用一個廣闊的字典結構。它包括三點基礎等級語法語言模式組成的人類決定的復合性詞匯,單回歸梅爾模式和全球廣泛的各種變體以及通常意義上的三點式聲第 3 頁 共 13 頁 音模式。自從 2001 年 11 月后,我們開始研究更加高效的詞匯樹。這種詞匯樹將拼湊聲音模式,支持四種語法 輸入,完成數據引導語言合成,重組外加特征參數(例如對數頻譜聲碼器,VTLN 等)和說話人自適應模式。 4. SPINE系統概述 如表 1 所示,我們的 SPINE 體系包括一個高度完整的語言感應器和多路識別通路。在每次識別過程中,聲音感應器根據當前的自適應聲音模式重新劃分結構。這個語音感應器將產生的噪音視頻轉化為聲音單元,并且每個聲音感應器的識別單元中的 LVCSR 被應用。這時,這個輸出結果(一個可信的格子或聲音串)被用于聲音自適應模式和一個非監督方式下的類型。那時,這個自適應聲音模式被再次應用到一個被提高的分割,識別假想和 一系列新的適應體系參數。為了提高識別和識別假想兩個方面,這個完整的自適應程序被多次重復使用。 當 SPINE 工作時,我們會發現分割和識別器之間的緊密的組成部分是識別器的最關鍵組成部分。進一步說,我們認為這個完整的方式是在噪音環境下如何將一些簡單的方式應用到語音的識別活動中來的。以下的部分將從細節上描述我們的識別體系。 4.1 訓練數據 作為 SPINE 2 系統評估的聲音和語言訓練數據不僅保留了先前 SPINE 1 的訓練和測試,而且為了 SPINE 2 系統的提高,還發展了訓練和測試的部分。對于 SPINE 2 的評估,在將數據和識別設備載入我們最終的系統時,我們的識別裝置以 1.1 小時的發展測試數據。表格 1 總結了本課題中所用于實驗的訓練數據。 第 4 頁 共 13 頁 a) 聲音模式 這個大量連續聲音識別系統的聲音訓練是基于對使用了被迫排成直線的 迭代 和位于堆的決定樹的足夠估計。在華爾街旅行的聲音模式中最初使用了將某物排成直線的方式。在被迫排成直線的 迭代 中,我們在依靠型模式中使用了一個單獨的最大可能線形回歸方式和各種變體來提高每個說話部分的直線排列的質量。直線排列完后,模式被決定樹估計,程序被重復用于提高隊列和模式參數的估計。在第一個聲音模式過 程中,我們使用了標準的 39 維MFCC 參數的有依靠性的(進入語和通過語)三角電話。在第二個階段(自適應過程)聲音模式是通過對數到頻譜聲碼器類型和聲音道束長度使其正常化的。 4.3 語言模式 對于 2001 年 11 月的 SPINE 2 的評估工作,正如表格 1 所示的,從 32 千赫茲的聲音中,我們提高發展了一級種語法的語言模式。這個工作是基于這樣的事實而進展的。從SPINE 1 到 SPINE 2 的轉變主要是電報和在戰場環境下用于完成目標搜索的特征任務。我們的語言等級模式是基于 3 種語言等級的:行( X 坐標)列( Y坐標)和名字(用戶 名)。SPINE 2 的訓練數據通過檢測被分成行和列。在這項任務中,這里有被分成多重等級模式的句子。例如,被拼作 VOX(奧斯卡女性勝利者 )有基本的行格的因素。(在 SPINE 2 中“勝利”和“奧斯卡”時行等級的組成部分)。 為了處理這些含糊不清的事情,我們設置了一個半自動化的系統,這種系統源于為DARPA通信任務而發展訓練的 N 種語法等級模式。為了提高識別力,這個語言工作模式同樣包括復合詞。在 2001 年 11 月的語言模式中包括 115 個復合詞。這些復合詞被人類視察的訓練數據所決定。在本文中,我們考慮到通過使用決定詞匯 復合的引導數據方法來提高SPINE 的語言模式。這種方法使用了直接的和間接的幾何平均去決定候選詞匯的復合。當前,我們的語言模式使用的被聚類的語言數據有 1664 個詞匯量,同時包括 180 個復合詞。 第 5 頁 共 13 頁 4.4 語言分割 在自適應過程中我們的語言分割方法是估計分割邊界,并且在決定性工作中使用自適應語音模式系統。這個分割包括(有聲的和無聲的)兩種狀態的隱馬爾可夫模型。隱馬爾可夫模型是每個 ASR(自適應系統 )所具有的動力學結構。通過不依賴于決定樹聚類模式的語言狀態,一個語言狀態由高四種復合物所構成。( 0)一個無聲的狀態通過所 有的無聲的不依賴的狀態所復合構成(例如呼吸 .笑 .沉默等)。隱馬爾可夫模型(有關于語言的 600 個混合復合詞和關于無聲的 288 個混合復合詞)是正常的。例如這個混合體將總體的總量看成一。一個 迭代 的 研究表現為每個會議中使用兩個隱馬爾可夫模式。通過最好的有軌道的網絡通道,有聲和無聲的分界點被決定。通過使用被隔離少于 0.25 的兩個富有啟發性的語言分割,使分割被提高,同時少于 0.1 秒的語言分割被刪除。最終,為了避免摩擦產生的中斷的或其他低能量的聲音的干擾,我們將所有語言分割被 0.25秒的時隙所加寬。我們需要指出的是:這個 語言分割方法(手段)避免了訓練分割有聲和無聲的必要,同時也避免了聲音在 VAD 和部分滿足自適應聲音模式過程之間的不匹配現象。 4.5 聲音自適應 在 SPINE 工作中,說話者和環境都是十分廣泛的。所以,這個聲音自適應識別系統能與測試條件相適應時至關重要的。為處理這些情況,我們已經引進了幾種技術,能在兩個較寬的等級(特征基礎和模式基礎)技術上被考慮。在特征基礎技術中,觀察者例如特征矢量輸入到語音識別系統中和模式基礎的特征參數(例如 HMM 和各種類型)被修改。通常情況下,特征提取的例子有:對數倒頻譜聲碼器,通常 地域的聲音長度和通常的倒譜種類。在CMS 中,對數倒頻譜特征向量的周期平均值被估計,同時,( 1)從對數頻譜特征參數中被計算。在 VTLN 中,最好的因素通過識別的手抄本給出的,由最大可能線性自適應數據所決定。這些過程伴隨著通常的特征類型。在 SPINE 的訓練和解碼體系中,這些方法已經被引用。模式及出資適應方式能被進一步分類成兩個大的等級:直接的和間接的。在直接的自適應中,隱馬爾可夫模式參數被直接引用。然而,在間接的方式中,一系列共享的變體首先被估計,然后被應用到隱馬爾可夫模式中。通常,最大后驗性估計被用作直接方式, 通過許多知識的確組合使滿溢的數據稀疏。在間接方式中,這種變體通常在最大可能狀態下估計。當前,在最大后驗性方面,同時應用了這兩種方法,并且證明提高了結果。一些自適應模式是可行的:監督的戰勝非監督的。在非監督的情形下,這個抄本是不可知的,并且應該不估計成一些形式,或者作為一個單獨的最好的串,或者是一個句子格子。在增加性的自適應系第 6 頁 共 13 頁 統中,模式去適應充足的數據而變得可用,并且新的模式被用作對即將來臨的數據的解碼。反過來說,就是即將來臨的數據被用作(再次)適應模式。在阻止的自適應系統中,當所有數據可行(就緒)時,自適應 才開始工作。我們來考慮下面幾個自適應列表: 最大可能線形回歸( MLLR) ( 1)增加的 /區間 ( 2)單極的 /多極的 ( 3)最好的串 /單詞格子 最大后驗線性回歸( MAPLR) ( 1)區間 ( 2)最好的串 /單詞格子 ( 3)回歸等級樹 我們最初的 SPINE 2 系統使用了一個等級,阻止性的最大可能線性回歸方式和各種變體能從一段話中得知語音識別的單詞后驗概率。盡管在 Hub-5 工作方面取得了一些成就,但是在 SPINE 2 工作中從單一級的回 歸到六等級的回歸的擴展起了關鍵作用。我們認為這是由于在 SPINE 的工作中,比起 Hub-5 來說,使用了較小數量的自適應數據。這將激勵我們去為一個物力學的多種的使用回歸等級樹的 MAP 自適應系統去奮斗。在下一階段中,我們將報道擁有更多自適應性的技術。 5. 評估工作 用于 2001 年 11 月的 SPINE 2 的評估數據包括 64 對說話者 3.5 小時的立體錄音(其中2.8 小時用于真正意義上的說話)。按平均值計算, 128 個會議的每個邊界包括 1.3 分鐘( 78秒)的說話準備活動。 5.1 分割 對于我們的 SPINE 2 來說,當自動的和手 動的語言分割被使用時,通過計算分類框架和單詞錯誤率來評估聲音分割。我們最初的系統是使用單回歸類的梅爾方式和對角線協方差變換。結果如表格一所示。我們可以看到,在收集聲音的活動中,有一個最初的以 7.44%為比率的分類框架。第一個自適應過程結束后,分割提供較少的錯誤率(最初分類框架的錯誤率是 6.93%),并且這個識別系統能更好地重新鑒定已經被誤認為是說話聲的安靜環境。(例如,插入語句的數量從 172 下降到 108)。在自動和手動的分割之間,單詞錯誤率有明顯的不同(純粹的 0.5%)。 第 7 頁 共 13 頁 表格 2:分割的演示總結。結果被 用作( a)說話聲 /安靜環境框架分類的錯誤率 ;( b)在安靜的環境下插入語音的數目。( c)自動分割的單詞的錯誤率。( d)手動電報分割的單詞錯誤率。 5.2 單詞錯誤分析 表格 3 通過迭代的自適應過程和對于各種 SPINE 2 的完全實時性的結構的分析總結了單詞的錯誤率。在表格 3 中,反復地說“ 0”是第一個識別過程。實時性因素在 1.7GHz 的英特兒奔騰 4 的單獨過程中被測試(計算)。實時性因素包括在自動分割中的過程時間。在設有自適應性的基礎的系統下,我們發現在 1.8x 實時性的條件下錯誤率為 41.8%,更進一步說,僅基于梅爾方 式的變換的增加性自適應系統,在說話過程中,以模式為代價能減少將近 10%的錯誤率。事實上,如表 3 所示是基于通常意義上的提高。這個一種通道增加的自適應系統于我們的多通道的自適應系統進行了比較,在 9x 的實時性下, 2001 年 11 月的系統有 37.5%的錯誤率。 在第二個自適應通道中,但回歸梅爾方式和對角線協方差變換的使用,使單詞的錯誤率下降(叢 41.8%下降到 33.2%),然而,正如許多在方面 2 報道的,在 2000 年和 2001 的創作中,可能是由于缺少足夠的自適應數據(新增加的多于一個的變換通常降低了系統的功能。在表格 3 中, 33.8%的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西省撫州市樂安縣重點達標名校2025年初三階段性測試(五)數學試題試卷含解析
- 上海杉達學院《國際經濟學》2023-2024學年第二學期期末試卷
- 2025年網絡營銷專業技能考試試題及答案
- 2025年信息系統項目管理師資格考試試題及答案
- 臺州市臨海市2025年數學三下期末綜合測試模擬試題含解析
- 上海民遠職業技術學院《唐詩選讀》2023-2024學年第二學期期末試卷
- 未來醫療行業發展趨勢與相關護理考試試題及答案
- 泰山護理職業學院《水利工程專業導論》2023-2024學年第二學期期末試卷
- 吉林省長春市朝陽區2024-2025學年聯考第一次診斷性考試化學試題含解析
- 江蘇省常州市武進區禮嘉中學2024-2025學年高三4月高考二模英語試題含解析
- 2025年北京市海淀區高三語文二模議論文《從知到智》范文
- 飯店員工勞務合同9篇
- 壓敏電阻材料在織物上的印刷技術應用
- 2025民宿租賃合同標準范本
- 2025年港口國企筆試題庫及答案
- 兒童發展問題的咨詢與輔導-案例1-5-國開-參考資料
- 彎矩二次分配法excel表-(1)
- 半導體分立器件制造公司績效制度范文
- 鐵板神數詳細取數法(共16頁)
- 粉煤灰漂珠粉項目可行性研究報告寫作范文
- 弧焊(3)電弧焊焊條
評論
0/150
提交評論