【畢業學位論文】語音識別自適應技術的研究與實現-計算機科學與技術_第1頁
【畢業學位論文】語音識別自適應技術的研究與實現-計算機科學與技術_第2頁
【畢業學位論文】語音識別自適應技術的研究與實現-計算機科學與技術_第3頁
【畢業學位論文】語音識別自適應技術的研究與實現-計算機科學與技術_第4頁
【畢業學位論文】語音識別自適應技術的研究與實現-計算機科學與技術_第5頁
已閱讀5頁,還剩86頁未讀 繼續免費閱讀

【畢業學位論文】語音識別自適應技術的研究與實現-計算機科學與技術.pdf 免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

I 摘 要 盡管非特定人的語音識別系統已經達到了令人鼓舞的性能,但是在實際應用時由于說話人和環境的改變通常會使得系統性能顯著下降。當遇到特殊口音的說話人,或者環境有一定的噪音時,系統的誤識率甚至有可能增加原來的5倍。語音識別要走向實用,就必須克服這個 性 , 語音 應 的 非常 要。 文 說話人 應 論了語音 應的 。通 說話人的 學 的 論, 和實了 常用的說話人 應 大率 和大“性 。實 應 說話人 應和環境 應有 。 在 , 文”一 于語音識別的 應 。通 在的 一個的 ,這 了 的 , 在應 時 應 ”了 識和 應 的 ,有的性。在 ,的 使用了一個 的 ,用來 環境和說話人 的 , 了加的 。 的 要用來的 于音 的 , 時了個 的性。 , 應 的特, 時 用了一 的使用 應 的 略。在論文的實,這 即使在 應 的情況下可以取得的 。在無噪音和有噪音的環境 別可以降低 識別字錯誤率。實這 能夠有的克服說話人 和環境 識別系統的影響, 語音識別系統的要求。 關鍵詞語音識別,說話人 應,環境 應, in is a an of so to to to of in of By a At of in a is in a is By a to AP to of In a to by a to AP AP is a of to of on AP a of is In is a in a in a is V 目 錄 摘 要 I V 第一章 言 1 音識別 1 音識別的 1 音識別的歷史與狀 2 音識別系統的框架 4 音 應 4 話人 應 5 他 應 6 內 發展動態 7 8 8 8 第二章 說話人 應 定人系統與非特定人系統 話人 話人 應 話人 應的 類 話人 應的 要 述 25第三章 于參 換的 應 大率 30 識 量域平滑 實 大“性 介 估 實 述 46第四章 應 言 境 應 應 體框架 與 的 略 述 54第五章 實與 論 環境 系統框架 與 論 的 應實 境 應的 別 應 應 述 70第六章 總 73參考文獻 75附 錄 81圖表索 85個人歷 87致 謝 89 1 第一章 引 言 處于信息革命浪潮時代的今天,人 于 樣信息的需求與日俱增,人 急切需要的信息處 式。語音,作 人類信息交流的 、有、 使用的 , 來 者的關 。 音識別 語音識別 用 算 人的語音信 動取有 的信息, 定語音信 的語言 的 。作 一個 學 域, 與 學、語音學、語言學、 學、 學、 學、人工 能、 字信 處 論、式識別 論、統 信息 論、 論、 算 學 學 。 音識別的意義 人 語音識別 識的 ,人 語音識別”了 來 的目。語音識別的目的就是人與人之間話交流信息一樣,實人 由 話,就是以“,使 能“人的語言, 話音的內 語言或有 的 ,或者一使 能夠 人的 作,”人類 或的 動 ”來。 ,語音識別鍵和之,人 交革命的下一 。: 語言是 的。 語音識別有 大的實際應用,其發展、 和實用 的 發展,其 算 、 動、通信、國 、 人 。目 可以 的語音識別 要應用有語音 系統,作 一 的文字第一章 言 - 2 - ,用口述代 鍵向 算 文字,這 動和”來革命性的變 語音 系統, 人 在 動 以 了一 安、 的 ,特別是當系統工作在一 特定的環境或已 用來其 動作的環境或一 特殊的用 人時 于 話系統的 系統, 用 了 、 和 的 索或 ,可以 用在 、交、 之 ,語音識別 可以用于口語 系統、 算 輔助教學、 動身份 域。 音識別的歷史與現狀 動語音識別 開 于五十年代。當時電子信 頻譜 儀開 用于 語音信 識別 、 量的音節和音 。其有代表性的是1952年美國的和1956年節詞識別系統2。 六十年代, 字 算 的 發展使人 語音信 的 由 擬信 的 向 字 。在這一時期,4和語音 的 使人語音 的 有了一個系統的了 。人 人類“的 和 了 ,發了人耳 音的不 頻率 有不 的 力的反應力,”了臨頻 論。這一時期,在語音識別的算 尚未找到 算 的 和算 。但人 了 段 類式匹配 。與 時, 語言 域的一 性 在。六十年代 的性 七十年代語音識別的 發展打下了。 七十年代,語音識別無論在 論, 是在系統實,有了 的發展。1975年發于性 編碼譜系 是識別 的特征,不但識別 大有, 算復雜 小。一時期,六十年代 ”的動態時間規 7 的應用于語音識別。 于 和識別系統紛紛建立 來。七十年代一個 大的里 碑,就是和識到可以一章 言 - 3 - 應用于語音識別。七十年代”了 的孤立詞識別系統, 0、大詞匯量 動語音“寫系統11、與話者無關的語音識別系統12。 到了八十年代,語音識別 有了的 性的發展。矢量量13和隱馬爾可夫 14,15在語音識別獲得了 的應用, 了 6,17這樣的 的非特定人 續語音識別系統。 ,八十年代人工神經網絡的 熱潮波及語音 域,”了于人工神經網絡18或者人工神經網絡和隱馬爾可夫 的混 19,20,21的識別系統。 九十年代, 信 處 、 學 、語言 、 碼搜索算 論日益 , 算 軟硬件系統性能不斷,”了一 大詞匯量 續語音識別系統, 2,3,4。這 系統大體 用了 “的 ,不僅有于隱馬爾可夫 的 學 , 了復雜的語言 以及 的 碼算 。有的系統 加 了語言 部 ,使系統性能一。 目 已有不 語音識別系統 實用階段,走了市,這里列”近個人電 雜報道的世 要語音識別軟件的評 25。這個評 表 在實用的語音識別系統已經發展到了非特定人、超大規詞匯量和 續語音識別階段,并有大約93%的 識別 率。 表1000、L&H 音識別系統的性能 000 L&H 別率 95% 91% 93% 95%是否支持 用 支持 支持 支持 支持 動詞匯表 160,000 60,000 34,000 64,000 大 動詞匯表 250,000 670,000 64,000 2,000,000 第一章 言 - 4 - 音識別系統的框架 雖目 的實用的語音識別系統使用 不 的 和 碼 ,但圖1語音識別系統的一般性的框架 。語音信 通 信 處 識別使用的一系列特征向量 識別再利用語言 和 學 得到 應 特征向量有大率的詞序列 時 應有用的信息用來 語言 和 學 修改。 圖1音識別系統的框架 音自適應技術 圖1,目 的大 使用語音識別系統 了一個非常 要的 應。 的作用 要是用 應 來調 學 和語言 ,使系統 應的應用狀況。雖一個訓練的系統可以 應 不 的情況,但 和實際作狀況間總存在一定的 。以使語音識別系統可以通 量的矯 盡量 小這 是十 要的。 應 就是這樣信 處 (碼/識別(學模型(言模型(用(用(音(第一章 言 - 5 - 一 , 系統參 調, 使系統的匹配由于 克 、 通道、環境噪音、說話人、文體和應用的下文 的 。 話人自適應 目 語音識別 在小詞匯量的非特定人別系統已經可以達到 的識別 率。 于 平 的詞錯誤率達到了3% 26。盡管平 錯誤率 低,但有一 說話人的錯誤 顯與其他人。由于使用 的說話人來訓練非特定人的系統 ,使得說話人之間的 當作說話人內部的 處 了。這樣使得 一個 學了大量的 ,有可能降低 于 個的說話人的建。這一可以由 一個說話人的語音 非特定人系統和特定人系統SD 有 的 訓練這個系統, 特定人系統性能要非特定人系統2到3倍。 文獻26”的 , 表1表1特定人與特定人系統性能于 一說話人的語音 ,非特定人和特定人系統。其訓練得到,再訓練600個。 說話人 ) ) .3 .6 .9 .0 .2 .3 .6 .5 .8 .1 .6 94第一章 言 - 6 - 特定人系統需 一個 說話者訓練,一般 言需的語音 量至 應達600 話匯量在5000以27。 大量的語音于 個使用者是一 的 , 處 這 需的小時,這使特定人系統的實用性 到 大 。 了 這個 ,開 說話人 應 ,即在一個已經訓練的 系統,用一定的說話人的語音 應 , 圖 系統 這個說話人的建 。一 可以是 一個 說話人 訓練的特定人系統和一個用 量說話人的訓練語音 訓練的非特定人系統的 , 使系統的識別率 近于 說話人經 訓練的特定人系統的 平。 了 非特定人系統存在的 之 ,說話人 應 可以用來增識別系統 環境的 應能力,特別是 環境噪音或 克 的 應能力。 文 工作 要 在說話人 應 的 。 他自適應技術 了說話人 應( 說話人的 音特的 應能力) , 應 下個 環境的 應能力,特別是 環境噪音或 克 的 應能力。環境噪音的 應可以有 的 一 是 語音的噪音,使得語音變得。 時,系統 噪音的 應能力就體在 不 的環境噪音, 取不 的噪 ,盡量 噪音 續作的影響。這需要 噪音 ,以 定 應的處 。 有一 是 有噪音的語音來訓練 ,使得噪音 的一個有部 。 時,系統 噪音的 應能力體在噪音 反“ 使用時的噪音環境。當環境噪音與訓練噪音不一致時,系統必須 噪 調, 排 噪音 系統識別性能的影響。 第一章 言 - 7 - 說話人的語言特的 應能力。 語言特的 應, 要是 的文體式和語體式的 應能力。系統應 語音流的特一定的調,使得系統的 參 特定的語音 性。在語體式, 要有口語體和體 。口語語言存在 大量的略、臨時、 復調、 錯以及非 語 和無 語音 28。 說話人的語 特的 應能力。這一是未來 語 復系統的要求,即未來的語音識別系統可以 動識別 語 。 內外發展動態 語音信 處 應 的 是 語音識別 的發展 并發展 來的。目 應 已經 了語音識別 的一個不可缺 的要部 ,并 開 應用在大 實用語音 和 平, ,的。 個語音識別 的發展 ,語音識別系統的”性的 之一29,30。 這是語音識別系統由實 實用 的一個 切關鍵的 。 說話人 應 是其不的一個和 。這 已經 了 來 的 的關 和 ,有 語音識別 的 與 位開 的力 應 的 。 語音 的國際學 會開 ”說話人 應作 論。 目 ,國際說話人 應的 要 可以大致 下 說話人 規377,其目的是建立一個 規的說話人間,使得 人的語音可以“其。這樣可以”說話人間的 降到低。 規的 ,其使用 的有 道 譜 規 說話人類17,43,45,65,通 一定的類或者 類算, 不 說話人的 類 組。識別時取與目說話人 近的 組識別。這 是十 有的 , 系統 使用。 第一章 言 - 8 - 譜變換476,91,92,是通 使用性或非性的變換”一個說話人的語音譜間“到一個人的譜間, 實 應。需要 ”的是,這 變換即可以 用于特征間可以在。 參 調546,79,82,85,是”原有 識 求”達到大率a 系統 用的 參 。 的 介 和 請參 論文的第二章。 國的語音識別 ,但由于 語語音識別的 要性日益 ”,近十年的發展十 。以 應 九十年代開 的說話人 應的 國 可以和國 。目 國內 這 的 要有清華大學、國 學 學 、國 學 動 、 大學、國 學 大學、國 大學、 電大學 31,36079,73,74,82。 文的工作是語音識別的 應 的 , 要內 的實及 。 了 下的工作(1) 實于大率 的說話人應。(2) 實于大“性 的說話人 應。(3) ”一個 的 應 。(4) 使用說話人 應 環境和噪音 應。 內 第一章 言 - 9 - 第一章 述語音識別、語音 應、以及 文 要 工作 第二章 了 說話人 的原 ,要介 說話人 應的 和原 , 介 了 常 的說話人 應 ; 第三章 ”了于大率于大“性 應 的原 和實 ; 第四章 述了 ”的 應 ; 第五章 ”了實和 的 第六章 文總 。 11 第二章 說話人自適應技術 章 ”了說話人 應 的 、 原 、 類、以及一常 的 。 定人系統與非特定人系統 目 語音識別系統 說話人的 類,可以 特定人系統D和非特定人系統I。 ,特定人的語音識別系統 用于個特定的用 ,并要求使用者 夠 的個人語音 以訓練系統。這 特定性使系統不 的 平 或 信息, 有語言無關性,無論口音 , 要使用者能在訓練及識別 持一致就可得到的識別 。有特定人系統的識別率已達到95 以31。 用 使用的 性大大 了特定人系統的一 與應用,一 有的用 加人,系統 要求 訓練,否 識別率降。一般 言,訓練需要的語音 量應達到 話以 話 用23 ,錄 訓練語音20 以。 在有情況下, 人 大量的語音 會令 個使用者 處 這 需的 加 , 就無須論及是否可以 夠的環境與時間來訓練了。 在實 ,有 情況要求頻 換使用人, 環境下的口述錄音, 時間表 的信息索。 時,非特定人的語音識別系統表” 大 。這 非特定人系統能夠在 一用大量訓練的 下, 當 的用 的識別 。 情況就是 一說話人,無論口音、話 ,能 識別 。第二章 說話人 應 - 12 - 這顯與人 的 吻。遺憾的是 第一章表 1示,有非特定人系統的識別 無 滿 實際使用的要求,其錯誤率可 當于 應的特定人系統的至三倍,在 情況下甚至能達 5 倍。 ,即使是一個工作的非特定人系統在遇到特殊的說話人 別, 稱 ,識別率會顯著下降32。 特定人系統和非特定人系統性能的 距的原 是 顯的。非特定人系統使用 的說話人語音來訓練識別系統的 ,雖能夠的 來 語音 元的 復雜的時變特性、協 發音 , 時卻使得說話人之間的 略, 降低了系統 于 個的說話人建的 。下 體 一下說話人 的 原 和 類。 話人差異(影響識別系統的識別 的 有 ,不 他 可以一般劃 類說話人之間的說話人內部的 一個人的說話有 己的特。當一個人說話時,他發”的語音 到的影響, 他的 道的 、寬 和物 形狀,年齡,性別,康狀況,文 ,個人的發音習慣 。這 使得一個人的語音可能和一個人完 不一樣。這一 可以 圖 2得 清楚。說話人之間的 要個 和說話習慣 33。 要是緣于 個人的發 官的形狀、大小和動態特性不 。這 語音的頻有顯著的影響,使得不 人 不 的 學特征男女之間 的 要 。這 情況的一個極端的子是說話人性別語音頻譜參 的影響。 建立一個 于 的語音 ,可以發,音頻率 f 取 于 的尺寸和特性,以及 的張力。一般 言,男性說話者的 f 大致 布在 60200圍內,女性說話者和小孩的 f 在第二章 說話人 應 - 13 - 200450。目 表 34,男性和女性在發元音時有 顯不 的共振峰頻率,男性發的元音頻低,共振峰 寬窄,并 頻譜平緩。這是 什 用男性語音訓練的特定人系統在女性 或雙性 時有 的原 。 圖2個不 說話人發 字 8語音的時頻波形圖和語譜圖。 可以清楚”不 說話人之間的 。 說話習慣 和說話人學習說話的 有關,這 習慣響發 的清晰 和共振峰 率的不 。體的 說話人的語和口音,這即使在人的“力 十 要。 人不 的說話習慣, 個人的教育和文的不 ,用 言的不 ,屬的社會 和 團不 以及個人的經歷、氣質的 。國 家 影響發音的 社會 , 域環境,宗教信仰,文 作了 的 ,并著闡述 口音的影響35。文獻? ”,音節之間的協 發音 會 口音的改變 變。文獻? ”,實口音的影響大約可以使得識別系統的錯誤率增加23倍。 由于發 的原 是十 復雜的,以這 說話人之間的 用 的 類來 是 困 的。 第二章 說話人 應 - 14 - 即使 略說話人之間的 , 于 一個說話人,在不 的時間、不的 和 狀態下, 述 一內大的 。這是 發音之間存在 道形狀和語的 。 當一個人由于感情的變大 或小 說話時這 就加 顯。這 一個人 己的發音 稱之 說話人內部的 。 要 語、感情語氣和康狀況 的影響?。這的一個有變,就可能使這個說話者訓練的識別系統的性能有 大的退。 總體 不 說話人 學變的 微 ,要個體說話者的語 變 大得 以捕捉和 述。在一 識別系統,需要區 說話人之間的 和說話人內部的 。 人的語音識別個人的語音,就要考慮說話人之間的 , 輕說話人內部的 。不 , 于非特定人的語音識別系統,不管是說話人的改變, 是發音條件的變, 要考慮。遺憾的是,迄今 止,人 沒有能夠建立一套的 述, 有求助于統 的 ,通 大量的訓練獲取 平 的信息, 個人特性的參與。但 由于個人信息的 削弱, 了系統 個特定人識別 的下降。 了 這個 ,說話人 應 應 。 話人自適應 了 第一章第二節和 章第一節里 到的特定人系統和非特定人系統訓練 量和說話人 這一 矛盾,人 ”了建立一 渡性 ,由的說話人 量的 樣 ,系統通 取其的有用信息并 一定的算 原有的非特定人 修 ,得到 話者的 。這即稱 說話人 應A, 應的系統有人稱統。其原有的說話人常稱 參考說話人的說話人 目說話人說話人 應可以 是 圖使用特定人系統訓練需 的 來 特定人的建 的 , 圖2。 第二章 說話人 應 - 15 - 的語音識別系統說話人的 特定人識別系統一般的語音 識說話人特有的信息圖2話人 應 一個特定人識別系統可以通 ” 訓練的 得到的通用語音 識和 說話人的 得到的說話人特有的信息 來實。 說話人 應算 的 ,在早的語音識別系統建立就開 了。 語音識別 的發展,說話人 應 發得到大家的 。 話人自適應的分類 說話人 應 , 在什 時候,以什 式 應和怎樣使用 應 可以 下 有監督 應即在特定人使用識別系統之 ,由系統規定的語音 ,系統 應 。目說話人說的訓練語音 規定,訓練的 字、 詞或 子是系統已 的。 無監督 應即目人說話人 需 量 或不 應 ,由系統以 式逐調系統參 ,以 應于目說話人。系統不 道目說話人說的語音內 或參 的修 通 識別系統的反饋來實的。 靜態的 應即識別系統一 性使用有 應 應, 的識別 。 第二章 說話人 應 - 16 - 的 應即識別系統是在 逐調到 狀態的,不斷使用的 來 應。調的 一般不使用者 。這 式 在 應 圖2個于說話人 應系統 通常使用的是靜態有監督的 應和無監督的 應, 者 應 來 冊 ,者 應 來 識別的 向反饋。圖 2 ”了這樣一個實際系統的子36。當 應 的 量無 或系統可以一的 應 時,應使用的 應。這 情況下,有無監督的 可以使用,不 無監督的 條件。 話人自適應的主要 說話人 應的 有 , 文”他 大致 以下四類說話人類說話人 規譜變換 參 調不 得 ”的是說話人 應 的 類并不唯一,有 之間沒有特別清晰的 。 一 文獻37,說話人 規算 一 在特征間的譜變換。 在實際的應用,大 系統往往 使用 應 , 節人語音 用 冊語音 用 應用語音 訓 練 應 在 應 冊D 二章 說話人 應 - 17 - 會 ”個實。下就 文的 類 體介 這 說話人 應 話人 (盡管 說的說話人的 大,但人仍可以 輕松的識別 不口音和性別的 人的語音。這說 人的大 可能可以一 規 , 語音個性的特征。這樣在識別系統說話人之間的 就可以 了。說話人 規 的 就是來源于人的識別 。 說話人 規的目的是建立一個 規的說話人間,使得 人的語音可以“其。這樣可以”說話人之間的 降到低 學特性不變。可以 說話人 規是 圖”說話人的語音特 參考說話人的,這樣可以使用已有的參考說話人的特定人識別系統來識別說話人的語音。圖2的示 圖。 圖2話人 規 示 圖 說話人 規 的 在于語音的 樣性。要 找到一 一般的 能夠 的“到 規間是 困 的。常用的有 譜 規 ?,38表 ,時 譜 可以用來 說話人和信道的特征。實,話人的語音 規 算 規的語音 語音 識別參考說話人的 第二章 說話人 應 - 18 - 是諸 用來補償說話人和信道影響的 子。處 驟首 ,用一個于能量的有 /無 算 歷個語流, 算有 幀的 譜 ,流的有幀參 譜 ,得到的特征參 。由于 訓練和 的有語流的 譜 零,時說話人和信道 可能 來的卷積畸變。 道 ?,39,67道 償 道 的 來規 不 說話人的 。體的實 ,大致可以 類1通 語音頻率特性用的 共振峰頻率的估 , 道 子 2利用大“ 來估 道子。 的續處 一樣,是利用 ,頻率 語音頻譜 道 不 的影響。 了 特征參 或語音變的 ,說話人 規的一個 找的特征參 。不 的特征參 , 于不 的說話人的 性有一定的。有文獻表 ,在常 的特征參 ,其他的 , 說話人的 應性要?。 找的、 性的特征參 , 是期以來 工作的目之一。 文獻40,41,42”一 于征的 應 。由于變性,這 的特征 說話人的 道 是不 感的, 可以大大 小由于 道 的說話人之間的 。在作者的實,特征的識別 譜 ,甚至于大“的 道 應 。 由于說話人 規需要復雜的“,并 有語音信息 樣處 ,了語音件的內以 使用率不是十 。 話人 類(說話人類 類實說話人 應的一個 的 。 應不 的說話人有與其 應的 , 應就是找” 應于目說話人的 。實際由于要 訓練 一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論