




已閱讀5頁,還剩68頁未讀, 繼續免費閱讀
(計算機應用技術專業論文)基于hmm的嵌入式語音識別系統研究.pdf.pdf 免費下載
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘要 曼 蔓i i i r o l l 一一 曼 苧 皇 苧 鼉 摘要 語音識別 a s r 是指機器通過識別和理解把語音信號轉變為相應的文本文件 或命令的技術 通過語音識別技術實現人機交互 可以使交互過程變得自然 高 效 經過多年的發展 語音識別系統已顯示出巨大的應用前景 同時也形成了完 整的理論體系和識別模型 隱馬爾可夫模型 h m m 就是其中一種 它是一種基 于統計的模型 具有良好的識別性能和魯棒性 因而被應用到很多優秀的語音識 別系統中 近年來 嵌入式技術的蓬勃發展為嵌入式語音識別應用帶來了廣大的市場需 求 傳統的d t w 算法在進行非特定人識別時的性能不太令人滿意 且識別過程 運算量較大 對嵌入式平臺實時應用來說是一種挑戰 因此需要采取一種性能良 好的算法 h m m 則是一種不錯的選擇 但大多數基于h m m 的語音識別系統都 是在p c 平臺上實現的 因此研究在嵌入式平臺下基于h m m 的語音識別系統是 十分必要而又有意義的 本文通過對嵌入式語音識別原理和h m m 模型研究 根據嵌入式平臺語音識 別系統研究流程 首先在p c 平臺上采用c 語言設計與實現了基于h m m 的語音 識別算法 驗證本文所設計算法的正確性 并對結果進行了簡單分析 鑒于f p g a 平臺的諸多優點 本文采用嵌入式平臺為f p g a 通過對嵌入式f p g a 平臺的開 發流程進行研究 設計了f p g a 平臺上的基于h m m 的嵌入式語音識別系統方案 結合系統需求和算法本身特點 提出了系統的總體框架 并對系統進行了軟硬件 功能模塊劃分 設計了系統的軟硬件框架 調度策略 同時通過對嵌入式語音識 別系統進行分析 提出了系統實現過程中的關鍵問題 如語音數據如何輸入到 f p g a 中 信號分析模塊算法如何實現浮點轉定點計算以及為了保證識別實時性 而采用硬件實現的v i t e r b i 算法的硬件如何實現等 并針對這些問題分別給出了 相應的解決方法 設計實現了一個嵌入式語音識別系統的原型 語音識別技術在嵌入式系統中的應用是當前的研究熱點 本文研究了嵌入式 平臺基于h m m 的語音識別系統 對語音識別算法的嵌入式設i f 矛n 實現做了有益 的探索 對嵌入式語音識別的進一步研究具有積極的理論和實踐意義 關鍵詞語音識別 嵌入式 h m m f p g a a b s t r a c t 曼 曼 曼i 二 i 二 i i 一i iii i i a b s t r a c t s p e e c hr e c o g n i t i o ni s at e c h n o l o g yi nw h i c hc o m p u t e r sc o n v e r ts p e e c hs i g n a l s i n t oc o r r e s p o n d i n gt e x t so rc o m m a n d sb yr e c o g n i t i o na n du n d e r s t a n d i n g m a k i n gt h e h u m a n m a c h i n ei n t e r a c t i o nm o r en a t u r a l a n de f f e c t i v e a f t e rm a n yy e a r s d e v e l o p m e n t s p e e c hr e c o g n i t i o ns y s t e mh a ss h o w nh u g ea p p l i c a t i o nf o r e g r o u n d a l s o h a sf o r m e di n t e g r a t e dt h e o r ys y s t e ma n dr e c o g n i t i o nm o d e l s h m m h i d d e nm a r k o v m o d e l i so n eo ft h e s em a t u r em o d e l s t h eh m m i sap r o b a b i l i s t i cm o d e lu s e di n s p e e c hr e c o g n i t i o ns y s t e m s w i t hah i g h r e c o g n i t i o n r a t ea n dg o o da n n n o i s e p e r f o r m a n c e h e n c ei su s e di nl o t so f e x c e l l e n tr e c o g n i t i o ns y s t e m s i nr e c e n ty e a r s t h er a p i dd e v e l o p m e n to fe m b e d d e dt e c h n o l o g yh a sb r o u g h t e x t e n d e dm a r k e tr e q u i r e m e n t s t h es p e a k e r i n d e p e n d e n tr e c o g n i t i o np e r f o r m a n c e u s i n gt r a d i t i o n a ld t wa l g o r i t h mi sn o tv e r ys a t i s f y i n ga n dt h er e c o g n m o np r o c e s sl s c a l c u l a t i o nc o n s u m i n gw h i c hi sab i gc h a l l e n g ef o rt h er e a l t i m ea p p l i c a t i o n o n e m b e d d e dp l a t f o r m s oi ti sn e c e s s a r yt oa d o p tab e t t e ra l g o r i t h m h m mi s ag o o d c h o i c e b u tm o s to ft h ec u r r e n t l ye x i s t i n gs p e e c hr e c o g n i t i o ns y s t e m sc o n s i s to f c o m p u t e rs o f t w a r eo np cp l a t f o r m s s oi t i sm e a n i n g f u la n di n e v i t a b l et or e s e a r c h h o wt or e a li z et h es p e e c hr e c o g n i t i o no ne m b e d d e dp l a t f o r m t h i s p a p e rr e p o r t s o nr e s e a r c hi n t ot h ep r i n c i p l e s o fe m b e d d e ds p e e c h r e c o g n i t i o na n dh m m u s i n gt h ef o l l o w i n gr e s e a r c hf l o ww i t ht h eg o a lo fo b t a i n i n ga s p e e c hr e c o g n i t i o ns y s t e mo na ne m b e d d e dp l a t f o r m t h er e s e a r c h e rf i r s t c h o s et h e a l g o r i t h mw h i c ht h es y s t e mw o u l da d o p ta n dt h e nd e s i g n e da n di m p l e m e n t e dt h e a l g o r i t h m so ft h es p e e c hr e c o g n i t i o ns y s t e mo nap cp l a t f o r m t ov e r i f yt h ec o r r e c t n e s s o ft h ed e s i g n t h en e x ts t e p w a st oc h o o s et h ee m b e d d e dp l a t f o r m b e c a u s e f p g a f i e l dp r o g r a m m a b l eg a t ea r r a y h a sm a n ya d v a n t a g e sf o re m b e d d e dd e s i g n s t h i sr e s e a r c ha d o p t e d i t a si t sd e v e l o p m e n t a lp l a t f o r m n e x tw ep r o p o s e a n h m m b a s e ds p e e c hr e c o g n i t i o ns o l u t i o nr e s u l t i n gf r o mt h er e s e a r c ho nt h ee m b e d d e d f p g ap l a t f o r m i no r d e rt om e e tt h es y s t e mr e q u i r e m e n t s a n db a s e do nt h e c h a r a c t e r i s t i c so ft h ea l g o r i t h m s t h er e s e a r c h e rd e s i g n e dt h es y s t e mf r a m e w o r k i n c l u d i n gt h eh a r d w a r ea n ds o f t w a r e f r a m e w o r k so ft h es y s t e m a s w e l la sa s c h e d u l i n gs t r a t e g y a f t e ra n a l y z i n gt h ee m b e d d e ds p e e c hr e c o g n i t i o ns y s t e m t h e r e s e a r c h e ri d e n t if i e dt h ec r i t i c a lp r o b l e m st h a tw o u l db ee n c o u n t e r e dd u r i n gt h e d r o c e s so fs y s t e mi m p l e m e n t a t i o n s u c ha sh o wt oi n p u ts p e e c hd a t a t ot h ef p g a 北京丁 i k 大學t 學碩十學付論文 p l a t f o r m h o wt or e a l i z et h ei pc o r eo ft h ev i t e r b ia l g o r i t h m e t c i no r d e rt os o l v e t h e s ec r i t i c a l p r o b l e m s t h er e s e a r c h e rd e s i g n e dc o r r e s p o n d i n gs o l u t i o n s a n d i m p l e m e n t e dt h es y s t e mp r o t o t y p e t h ea p p l i c a t i o no fs p e e c hr e c o g n i t i o no ne m b e d d e ds y s t e mi sah o tr e s e a r c hs p o t t h ew h o l er e s e a r c h p r e p a r e d f o rt h ef u r t h e rr e s e a r c ho nh m mb a s e d s p e e c h r e c o g n i t i o no ne m b e d d e dp l a t f o r ma n d h a dr e f e r e n c e dv a l u et os o m ee x t e n t k e y w o r d ss p e e c hr e c o g n i t i o n e m b e d d e d t t m m f p g a i v 獨創 i 生聲明 本人聲明所呈交的論文是我個人在導師指導下進行的研究工作及取得的研 究成果 盡我所知 除了文中特別加以標注和致謝的地方外 論文中不包含其他 人已經發表或撰寫過的研究成果 也不包含為獲得北京工業大學或其它教育機構 的學位或證書而使用過的材料 與我一同工作的同志對本研究所做的任何貢獻均 已在論文中作了明確的說明并表示了謝意 簽名 掃象蟄 r 期 蘭 堡 5 呈 關于論文使用授權的說明 本人完全了解北京工業大學有關保留 使用學問論文的規定 即 學校有權 保留送交論文的復印件 允許論文被查閱和借閱 學校可以公布論文的全部或部 分內容 可以采用影印 縮印或其他復制手段保存論文 保密的論文在解密后應遵守此規定 簽名 叁要蕘生黽 導師簽名 第l 章緒論 1 1 課題研究背景 第1 章緒論 語音作為人類交流最自然 最方便的手段 因而也必然成為人和計算機之間 交流的最自然 最方便的手段f l l 語音處理技術和自然語言處理技術的飛速發展 對基于自然語言的人機交互方式提出了更高的要求 當日訂人們已不再滿足于簡單 的問與答系統 而需要具有更高智能水平的對話處理系統 交互的智能性將成為 衡量交互效果的一個重要標準 因此如何提高交互的友好性 自然性成為當今的 一個研究熱點 語音是人與人之間最自然的交互方式 通過語音識別技術實現人機之間的語 音交互 可極大提高信息服務的自然度 擴展信息服務的人群 語音識別是機器 通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術 2 l 作為 專門的研究領域 語音識別是一門交叉學科 它與聲學 語音學 語言學 數字 信號處理理論 信息論 計算機科學等眾多學科緊密相連l j l 語音識別經過四十 多年的發展 已經顯示出巨大的應用前景 語音識別技術的根本目的是解決人機交互問題 希望機器可以像入一樣能聽 懂話語 進行交流 隨著計算機與網絡的不斷發展以及社會信息化程度的日益提 高 人們對獲取信息的手段和方式提出了越來越高的要求 作為人類最有效便捷 的通信交互手段 自然的語音交互方式在人機通訊領域的地位同漸凸顯 隨著嵌 入式技術的蓬勃發展 嵌入式設備同人們日常生活的聯系變得越來越密切 這些 嵌入式設備多以信息終端的形式出現 集計算 通信 傳感功能于一身 能方便 地與各種設備 包括日常用品 結合在一起 因此為了滿足用戶對于嵌入式設備 更便捷 自然使用的需求 將語音合成技術應用到嵌入式設備中成了必然的趨勢 同時消費者對小而方便的嵌入式設備的需求也給嵌入式語音識別應用帶來了更 大的市場需求i jj 語音識別有多種識別算法 如d t w h l 隱馬爾可夫模型引 基于傳統d t w 算法的語音識別系統由于算法自身特點 在對特定人語音識別有較好的識別性 能 但在使用前需要對所有詞條進行訓練 詞表一旦發生變化則需要用戶重新訓 練模板 使用非常不方便 6 隱馬爾可夫模型 h m m 是一種基于統計信號模型 算法具有良好的識別性能和抗噪性能 可用于非特定人識別且不需要用戶事先訓 練 且具有良好的識別性能 因而被應用到許多優秀的語音識別系統中 面對廣闊的嵌入式語音識別設備市場空間 如何在嵌入式環境中采用一種便 于用戶使用且識別效果良好的算法來實現語音識別系統 則是我們需要解決的問 題 本課題正是在這種背景下提出的 1 2 嵌入式語音識別研究現狀 2 0 世紀5 0 年代 a t tb e l l 實驗室實現了第一個可識別十個英文數字的語 音識別系統a u d r y 系統 6 0 年代中 最重要的成果是提出了動念規整d p 和線性 預測分析技術l p 這個時期語音識別系統的構成基本上都是用硬件實現的濾波 器組末提取頻譜特征 剛計算機進行匹配計算和判決 7 0 年代 理論上 線性 預測分析技術成功應用于語音識別 動態時間規整技術d t w 基本成熟 矢量量 化v q 理論 隱馬爾可夫模型法h m m 也獲得初步的成功 在實踐上 實現了基 于線性顱測倒譜和d t w 技術的特定人孤立語音識別系統 1 1 8 0 年代以后 丌 始 出現語音處理技術產品化的熱潮 這與上面幾種技術的推動作用是分d f 的 八十年代以來 h m m 模型的廣泛應用使語音識別算法從模板匹配技術轉向 基于統計模型技術 h m m 理論是1 9 7 0 年前后出b a u m 等人建立起來的 隨后 由c m u 的b a r k e r 和i b m 的j e l i n e k 等人將其應用到語音識別中 由于b e l l 實驗 室的r a b i n e r 等人在8 0 年代中期對h m m 深入淺出的介紹 使得h m m 為世界 各國從事語音處理的研究人員所了解和熟悉 進而成為一個公認的研究熱點 也 是目6 j 的主流研究途徑 7 1 9 0 年代初 美國卡耐基梅隆大學 c m u 丌發出基于 v q h m m 的非特定人連續浯音識別系統s p h i n x 首先克服了語音識別中非特 定人 連續語音 大詞量三大難題 被世界公認為語音識別技術發展中的一個里 程碑捧j 它能識別包括9 9 7 個詞匯的連續語句 其它比較有代表性的系統有b e l l 實驗室丌發的識別5 個詞v r c p 系統和8 0 0 語音識別服務系統f 9 j 在電話業務中 得到了較好的應用 在英國 劍橋大學開發的h t k l l 0j 大詞量連續語音識別系統 在a r p a 連續語音識別系統性能評測中識別率名列首位 此外還有i b m 公司推 出的v i av o i c e 連續語音諺 別系統 j 等 我國于5 0 年代歹1 始語音識別的研究 近年來發展也很快 研究水平也從實 驗室逐步走向實用 固家8 6 3 計劃智能計算機主題專家組為語音識別技術的研究 專門立項 我國語音諺 別技術的研究水平基本上與國外同步 在漢語語音識別的 研究上還有自己的特點與優勢 并接近國際先進水平 我國現有很多科研單位在 從事語音識別技術的研究工作 具有代表性的研究單位是清華大學電子工程系和 中科院自動化研究所模式識別國家重點實驗室 清華大學開發的連續語音識別系 統一t h e e s p 具有良好的識別性能 中科院自動化所和所屬的模式科技 p a t t e k 公司發和了他們共同推出的面向不同計算平臺和應用的 天語 中文語音系列產 品 p a t t e ka s r 結束了1 9 9 8 年以來語音識別產品一直由國外壟斷的歷史 近幾年來 隨著半導體和集成電路技術的突飛猛進 基于嵌入式系統的便攜 式移動設備j 下在成為人們生活中不可缺少的電子產品 移動便攜式設備的廣泛普 及使人們對這些設備體積的要求也越來越高 目前 主流的嵌入式設備會提供小 第l 犖緒論 尺寸的軟鍵盤或者手寫觸摸屏 但是這種簡單的輸入方式沒有為用戶與機器的交 互提供足夠的便利 使用語音作為人機交互的途徑對于使用者來說是最自然的一 種方式 如果能將語音識別技術應用到嵌入式系統中 將會促進便攜式設備的進 一步普及提供 1 2 語音識別技術目前在嵌入式系統中的應用主要為語音命令控 制 它使用語音代替了原本需要手工操作來完成的工作 方便了用戶的使用 語 音命令控制可用于家電語音遙控 玩具 p d a 及移動電話等便攜設備中 由于 嵌入式設備通常針對特定應用而設計 只需要對幾十個詞的命令進行識別 因此 對嵌入式語音識別技術的要求不在于大詞匯量或連續語音識別 而在于識別的準 確性與魯棒性 i 川 目前嵌入式語音識別的實現主要通過單片機m c u 或數字信號處理器d s p 來實現 單片機運算速度慢 處理能力不高 雖然d s p 數字信號處理速度很快 但其產品成本很高 電源能量消耗也很大 因此為了滿足嵌入式交互系統的體積 越來越小 功能越來越強 功耗越來越小的苛刻需求 這就需要一個高度集成的 硬件平臺 基于片上系統s o c s y s t e mo nc h i p 的語音識別系統因此而生 s o c 結構大大減少了嵌入式系統的芯片數量 能夠提供高集成度和相對低成本的解決 方案 同時系統的可靠性也大大提高 1 4 j s o c 的實現方式有專用集成電路a s i c a p p l i c a t i o ns p e c i f i ci n t e g r a t e dc i r c u i t 和現場可編程門陣列f p g a f i e l d p r o g r a m m a b l eg a t e a r r a y 兩種 a s i c 是芯片前端和后端設計完成后 直接用流 片方式由圓晶工廠生產成具體的芯片 雖然一片a s i c 芯片的成本很低 但它本 身設計周期長 流片投入費用高 風險較大 l5 1 f p g a 源于美國x i l i n x 公司 其丌發目標是實現l s i v l s i 門陣列技術的高邏輯密度性和用戶現場可編程的 高設計靈活性相結合 上市快捷以及成品的有效性相結合 f p g a 保持了a s i c 的 高速性 增加了設計的靈活性和適應性 修改簡單 降低了開發風險 并可進行 編程 再編程 降低了成本 在嵌入式開發中發揮越來越重要的作用 目前世界 上有十幾家生產c p l d f p g a 的公司 最大的三家是 x i l i n x a l t e r a l a t t i c e 其中全球p l d f p g a 產品6 0 以上是由x i l i n x 和a l t e r a 提供的i l 引 f p g a 平臺語音識別芯片的研究在國外是一個新興研究領域 嵌入式f p g a 平臺上基于h m m 的語音識別研究由于成本和復雜度的限制 雖然已取得了一些 成果 2 8 1 但距離成熟的語音識別芯片還有很長的一段研究路程 目前國內的相關 研究還非常少 作為一個新興的課題 f p g a 平臺上的語音識別具有很大的研究 空間和應用前景 1 3 研究內容 論文的主要任務通過研究嵌入式語音識別的基本原理和h m m 模型的思想 北京t 業大學i 掌壩一i 聲何淪文 根據嵌入式語音識別系統研究流程 研究f p g a 平臺下基于h m m 的嵌入式語音 識別 主要研究內容如下 1 研究嵌入式語音識別原理以及識別過程中所涉及的算法 如端點檢測 特征提取 矢量量化等 2 研究h m m 模型的原理以及模型中三個基本問題 并對模型中的自 j 后向 算法 訓練算法b a u m w e l c h 識別算法v i t e r b i 進行深入的研究 3 設計與實現p c 平臺上的基于h m m 的語音識別算法 并對實驗結果進 行分析 4 研究嵌入式平臺f p g a 開發流程 并根據f p g a 開發流程研究設計語音 識別系統在嵌入式平臺下的實現方案 包括系統總體框架 軟硬件模塊劃分方法 系統調度等 5 分析嵌入式語音識別系統實現中的關鍵問題 并針對這些關鍵問題 設 計相應的解決方案 實現嵌入式語音識別系統原型 1 4 論文組織結構 論文的章節結構安排如下 第1 章 緒論 介紹了嵌入式語音識別系統的研究背景 總結了嵌入式語音 識別的研究現狀 并對本文的研究內容和組織結構進行了說明 第2 章 嵌入式語音識別基礎 主要介紹了嵌入式語音識別的基本原理以及 嵌入式語音識別技術 為后面的研究工作提供理論基礎 第3 章 基于h m m 的語音識別算法 本章主要介紹了基于h m m 的語音識 別算法 并在p c 平臺上進行實現驗證 對語音識別系統在嵌入式平臺的研究有 重要指導意義 首先介紹了算法總體設計方案 并逐步對語音識別系統前端模塊 后端模塊所涉及的算法功能進行了實現 并對仿真結果進行了初步分析 第4 章 嵌入式語音識別系統設計 本章首先介紹基于f p g a 平臺丌發流程 通過對系統進行分析 設計一種f p g a 平臺上基于h m m 模型的語音識別系統方 案 包括系統的軟硬件模塊劃分 軟件框架 硬件框架以及中斷調度策略等 第5 章 嵌入式語音識別系統原型實現 通過對嵌入式語音識別系統進行分 析 研究了嵌入式語音識別系統實現過程的關鍵問題 并針對這些問題給出了相 應的解決方案 設計實現嵌入式平臺語音識別系統原型 結論 總結了本文工作 并對進一步的工作進行了展望 第2 章嵌入式語音識別基礎 第2 章嵌入式語音識別基礎 2 1 語音識別介紹 2 1 1 語音識別原理 語音識別系統是一種模式識別系統 系統首先對語音信號進行分析得到語音 的特征參數 然后對這些參數進行處理形成標準的模板 這個過程稱為訓練或學 習 當有測試語音進入系統時 系統將對這些語音信號進行處理 然后進行參考 模板的匹配 得出結果 此時便完成了語音識別的過程 語音識別系統的原理圖 如下圖2 1 所示 語昔俯吁 穰q 塒 判決 頂處理 特征提取模式匹配 分幀訓練訓綾i 1 加窗 一模式訓練h 模型庫l 信號分析 模式匹配 邏輯識剮 圖2 一l 語音識別原理圖 f i g u r e2 1p r i n c i p l eo fs p e e c hr e c o g n i t i o n 從上圖可看出一個語音識別系統包括信號分析 聲學模型和模式匹配 邏輯 識別三個大的部分 其中信號分析模塊的輸出是聲學模型和模式匹配的輸入 各 部分功能介紹如下 1 信號分析模塊主要完成語音信號的分析處理 包括預處理 特征提取等 其中預處理包括預加重 分幀 加窗 端點檢測 特征提取是從語音波形中提取 出反映語音特征的相關信息 去掉相對無關的信息 語音識別系統常用的特征參 數有幅度 能量 過零率 線性預測系數 l p c l p c 倒譜系數 l p c c 線譜 對參數 l s p 等 2 聲學模型和模式匹配階段主要是通過訓練來完成語音聲學模型的建立 通過模式匹配來完成識別工作 在訓練階段 系統根據獲取的語音特征參數通過 學習訓練算法生成模板 并保存到模板庫 在模式識別階段 語音信號經過相同 的通道處理得到語音參數 生成測試模板 與參考模板進行匹配 并將匹配分數 最高的參考模板作為識別結果 北京t 業大學t 學碩士學位論文 3 邏輯識別部分主要是根據一些判決規9 1 u 確定語音識別的輸出 2 1 2 語音識別系統分類 語音識別系統按照不同的角度可分為不同的類別 一般情況下 可以按以下 幾種方式進行分類t 7 l 1 根掘識別的詞匯量大小可分為大 中 小詞匯量語音識別系統 其中大 詞匯量系統詞數超過1 0 0 0 詞 中詞匯量系統通常包括幾百個到上千個詞 小詞 匯量系統詞數小于1 0 0 鬩數量越多 系統識別時間越長 識別精度越低 難度 也越大 2 按識別單位分為孤立詞識別 連接詞識別 連續語音識別三種 孤立詞 識別即說話人每次只洗一個詞 詞組或命令 這些在詞匯表中都算作一個獨立詞 條 連接詞識別一股足指由十個數字連接而成的多位數字識別 有時會出現一些 連音 連續語音識別系統的輸入是自然流利的連續語音輸入 會出現大量連音和 變音 3 按說話人的限定范圍可分為特定人語音識別和非特定人語音識別 所謂 特定人語音識別只針對某一個特定用戶 用戶在使用系統前必須建立自己的參考 模板 非特定人語音識別是指語音識別的系統的用戶可以是任何人 使用者無需 訓練 共崩一套參考模版庫 2 1 3 語音信號產生模型 對發音器官和語音產生的機理進行分析可知 語音是由空氣流激勵聲道最后 從嘴唇或鼻孔或同時從嘴唇和鼻孔輻射出來而形成的 1 引 大部分語音可分為濁音 和清音兩類 而對于清音 濁音來說激勵源是不同的 聲道則可以用全極點模型 來描述 在該模型下 可認為任何語音都是由一個激勵源作用于聲道而產生的 語音產生的數學模型如下圖2 2 所示 樣值 圖2 2 語音產生的數字模型 f i g u r e2 2d i g i t a lm o d e lo fs p e e c hs i g n a l 在上圖中 清濁音開關模擬了加在聲道上激勵的改變情況 當開關接在濁 第2 章嵌入式語音識別基礎 音位置時 激勵源是準周期脈沖序列發生器 其重復頻率由基音周期來確定 當 開關接在清音位置時 激勵源是隨機噪音發生器 增益因子g 給出聲音的晌度 圖中的時變線性系統用來模擬聲道的特性 2 1 4 語音信號處理 2 1 4 1 語音信號預處理 原始的語音信號都是模擬信號 為了對語音信號進行處理 就要將原始的語 音信號先轉成數字信號 并對這些信號進行加工處理 使語音信號能夠用于特征 參數的提取 這個過程便是預處理的過程 預處理主要包括以下幾個部分 1 采樣與量化 采樣將模擬語音信號s t 以t 為采樣周期進行采樣 然后將其離散量化為數 字信號為s n 主要是進行a d 轉換 當然對離散后的語音信號進行量化處理 過程會帶來一定的量化噪聲和失真 2 預加重 預加重是指在a d 轉換后加一個高頻提升濾波器 它是一種重要的自i f 處理 技術 由于發聲過程中聲帶和嘴唇的效應 使得高頻共振峰的振幅低于低頻共振 峰的振幅 在分析語音信號之前 需對其高頻部分進行增強 增加語音的高頻分 辨率 一般通過一個傳遞函數為麒z 1 及木z 1 的濾波器對其加以濾波 其中a 為預加重系數且o 9 a 1 0 假設n 時刻的語音采樣值為s n 經過預加重處理 后的結果為 d t 4 n s 功一菸 一1 0 9 a 線性預測及線性預測倒譜系數 人的發聲器官可以用若于段前后連接的聲管進行模擬 這就足所謂的聲管模 型 全極點線性預測模型 l p c 可以對聲管模型進行很好的描述 每段聲管則 對應一個l p c 模型的極點 一般l o 1 6 個極點就可以足夠清晰的拙述語音信號 的特征了 線性預測分析技術是目前被廣泛應用的特征參數提取技術 許多成功 的識別系統都采用基于線性預測技術提取的l p c 倒譜系數作為系統的特征矢 量 它的基本思想為 語音信號相鄰的采樣點之間有很強的相關性 每個語音信 號的采樣值 可以用它商可面的若干個采樣值的加權和 線性組合 來近似表示 預測誤差定義為真實采樣值和預測值之差 根據預測誤差均方值最小準則 可以 唯一確定一組線性預測系數 定義預測函數為 s 門 a i s n 一1 a 2 s n 一2 a p s n p 2 4 系數a l c 1 2 a p 為常數 稱為l p c 系數 也是全極點模型 俐的參數 上 式可改寫為 一p s 刀 吼s n 一后 2 5 盤 i 公式2 4 的差分形式可以表示j 例和甜例的時域關系為 s 門 日 s n 七 g 甜 刀 2 6 k l 那么系統的預測誤差為 p p 門 s 刀 s n s n d s n k 2 7 k l 預測分析的基本問題是確定預測系數 c k 由于語音信號頻譜特征是隨時間 變化的 所以計算給定n 時刻的預測系數必須取n 時刻附近的一段短時語音幀進 行估計 基本方法是求出一組預測器系數使得在一短段語音波形中均方預測誤差 最小 為此定義短時平均預測誤差平方和為 p 巴 2 歷 is n 川 一 a k s m k 1 2 1 7 1 胛k l 其中 s m 式在抽樣點附近選擇的一個語義段 即 s 聊 s n 柳 按照對預測誤差的均方值最小的準則求吼 令o e o a 0 則可得到 2 8 s 朋 i s 聊 吼 s 朋 i s 腳一七 2 9 用k l用 即 丸 f o 口 丸 f 七 1 2 p 2 1 0 其中 丸 f 七 s 肌一f s m k 這是由p 個方程構成的方程組 未知數為p 個 求解該方程組 就可以得到 系統的線性預測系數 在語音的識別系統中一般不是直接使用l p c 系數 而是使用由l p c 系數 推導出另 種參數 線性預測倒譜系數 l p c c 它的主要優點是比較徹底地去 掉了語音產生過程中的激勵信息 主要反映了聲道響應 一般十幾個倒譜系數就 能較好地描述語音信號的共振峰特性 因此在語音識別中取得了較好的效果 具 體的參數提取實現過程將在后面的章節中進行介紹 m e l 倒譜系數 m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t 人的聽覺系統是一個特殊的非線性系統 它響應不同頻率信號的靈敏度是不 同的 因此在進行聲學測量時 頻率刻度常常取為非線性刻度 以m e l 為單位的 北京t i k 入孑 工號 碩t 1 號 位論文 曼 曼 曼蔓曼 曼 曼 曼曼 皇 曼曼 曼 i 1 1 1 1 1 曼 曼蔓 曼 曼 曼 曼 曼 寡 頻率刻度就是符合這種特性的一種頻率刻度 它是根據主觀音高均勻劃分的 它 和線性頻率的轉換關系為 m e l f 2 5 9 5l o g 1 f 7 0 0 1 m e l 頻率倒潛參數是一種能夠比較充分利用入耳感知特性的參數 m e l 頻率 倒譜系數首先是將信號頻譜的頻率軸變換為m e l 刻度 再變換到倒譜域得到倒譜 系數 m f c c 參數具有良好的識別性能和抗噪能力 計算流程如下圖2 5 所示 竺釅 圖2 5m f c c 計算過程 f i g u r e2 5f l o wc h a r to fm f c cc a l c u l a t i o n 具體描述如下 2 0 1 1 確定每一幀語音采樣序列的點數 對每幀序列進行預加重處理后再經過 離散f f t f a s tf o u r i e rt r a n s f o r m 變換得到其頻譜 2 求頻譜幅度的平方得到能量譜 并用m 個三角濾波器在頻譜域對能量進 行帶通濾波 這組帶通濾波器中心頻率是按m e i 頻率刻度均勻排列的 間隔 1 5 0 m e l 帶寬3 0 0 m e l 每個濾波器的三角形的兩個底點的頻率分別等于相鄰的 兩個濾波器的中心頻率 即每連個相鄰的濾波器的過渡帶互相搭接 且頻率n 向應 之和為l 濾波器的個數通常與臨界帶數相近 經過m 個濾波后得到的輸出為 x k k l 2 m 3 計算濾波器輸出x k 的自然對數 得到l o g x k k i 2 m 4 計算t o g x k 的2 m 點離散余弦變換即可得到m f c c 由于其對稱性 此式可簡化為 m c l o g x k c o s z k 0 5 n m n 1 2 l 七 l mf c c 參數的個數l 通常取1 2 1 6 在譜失真測度定義中通常不用o 階倒 譜系數 因為它是反映頻譜能量的 另外在m e l 倒譜的提取過程中 如果f f t 運算的點數選耳 過大 那么運算復雜度增大 從而使系統所需的計算時間變長 但如果f f t 運算的點數過小 則可能造成頻率分辨率過低 提取的參數的誤差 過大 第2 蕈嵌入式渚罰 識別夏礎 2 1 4 5 矢量量化 矢量量化擔 是七十年代后期發展起來的一種數據壓縮和編碼技術 廣泛應用 于語音編碼 語音合成 語音識別和說話人識別等領域 在語音識別處理中占有 十分重要的地位 矢量量化的原理是將若干個標量數據組成一個矢量然后在多維 空間給予整體量化 從而可以在信息量損失較小的情況下壓縮數據 矢量量化原 理如下 1 首先 把k 維歐幾罩得空間尺 無遺漏的劃分成j 個互不相交的子空間 蜀 r 2 8 且滿足以下條件 it jm 一礎 尺 nr j j 2 然后在每一個子空間內找n 個代表矢量 則k 維空間的j 個代表矢 量為 i 匕 y 當對任意輸入的矢量x 進行量化時 矢量量化器將以某種方 式在k 維空間中搜索 尋找一個與z 最接近的子空間r 然后輸出該子空間r 的代表矢量 也即 矢量量化的過程就是用 代表x 的過程 l q x 1 j sjl i n 其中 o x 是量化器函數 從矢量量化的原理看出 矢量量化關鍵是要進行量化器函數即矢量量化器的 設計 也就是從大量信號樣本中訓練出好的碼書 尋找到好的失真測度定義公式 設計出最佳的矢量量化系統 因此 為了進行矢量量化 需要解決以下三個問題 l 初始碼書設計 矢量量化器在進行碼本設計之前需要生成初始碼書 一 般有隨機選取法 分裂生成法等 2 碼本設計 即劃分j 個隨機矢量空間并選擇各個子空間的代表矢量的過 程 這個過程也稱為 訓練 或建立碼本 3 確定兩個矢量在進行比較時的測度 失真測度是將輸入矢量x 用碼本矢 量r 來表示所產生的誤差或失真的度量方法 它可以描述兩個或多個矢量間的相 似程度 失真測度一般采用歐氏距離 似然比失真等方法 在選定了失真測度和初始碼書后 就可用相關算法對初始碼書進行迭代優 北京下業大學t 學碩十學 t 論文 化 一直到系統性能滿足要求或不再有明顯的改進為止 此時得到的矢量則為系 統的碼書 2 1 5 模板匹配方法 語音識別系統進行語音識別的時候 將輸入的待識別語音信號模板與參考模 板進行匹配得到識別結果 這個匹配的過程有很多種方法 主要有動態時i 日j 規整 隱馬爾可夫模型 神經網絡等 下文將分別介紹這幾種方法 2 1 5 1 動態時間規整 語音信號有較大的隨機性 即使同一個人在不同時刻的州一句話發的同一個 音 也不可能具有完全相同的時間長度 因此時l 日j 伸縮處理是必不可少的 針對 這一問題門本學者板倉提出了著名的動態時間伸縮算法 d t w d t w 是較早的 一種模式匹配和模型訓練技術 算法的核心是把特征分析中提取的一組隨時l e j 變 化的特征矢量序列和事先通過學習后生成的樣本序列進行距離最小的匹配路徑 計算 在這一過程中 未知量 待識別語音信號 的時間軸進行不均勻地扭曲和彎 曲 使其特征與模板特征對齊 即時間規整 通過計算獲得兩個矢量匹配時累積 距離最小的規整函數 當輸入特征序列和存儲的樣本通過一定失真準則比較后即 可找到和輸出特征矢量序列最接近的樣本序列1 2 引 基于d t w 的模板匹配技術的 缺點是只對特定人語音識別有較好的識別性能 并且在使用前需要對所有詞條進 行訓練 使用不是很方便 而且隨著時間的推移 系統識別率會下降 2 1 5 2 隱馬爾可夫模型 隱馬爾可夫模型作為語音信號的一種統計模型 在語音處理各個領域中被廣 泛應用 語音信號可以看成是一種信號過程 它在足夠短的時n j 段上的信號特性 近似于穩定 而總的過程可看成是依次從相對穩定的某 特性過渡到另一特性 h m m 是對語音信號按時問建立統計模型 可將它看作一個雙重隨機過程1 2 3 1 一 個是用具有有限狀態的m a r k o v 鏈來模擬語言信號統計特征變化的隱含的隨機過 程 另一個是與m a r k o v 鏈的每一狀態相關聯的觀測系列的隨機過程 h m m 模 板庫是通過反復的訓練過程 用迭代算法形成一套與訓練輸出信號吻合概率最大 的最佳h m m 模型參數 這些參數均反映了訓練中語音的隨機過程在統計特性下 的數字參數 而不是模式特征參數本身 在識別過程中 采用v i t e r b i 算法 計 算待識別語音序列與h m m 模型參數之間的似然概率達到最大值 所對應的最佳 狀態序列作為識別輸出 這個過程也是一個反映待識別序列與h m m 模型參數狀 箔2 章嵌入式語音識別藎礎 態序列最大關聯的隨機過程的統計過程 h m m 方法雖然在訓練過程中的處理比d t w 方法要復雜 但識別過程則遠 比d t w 方法簡單 h m m 模型的這種統計特性使它非常適合于非特定人的語音 識別 在漢語語音識別中 h m m 方法不僅可用于孤立詞識別系統中 而且在連 續語音識別 說話人識別等方面也得到廣泛的應用 是目前漢語語音識別技術的 主流 2 1 5 3 人工神經網絡 人工神經網絡 a n n 是一種分布式并行處理結構的網絡模型 具有自組 織和自學習能力 其性能近似理想的分類器 a n n 是采用大量的簡單處理單元 廣泛地連接起來構成的一種復雜的信息處理網絡 模擬了人類神經元活動的原 理 具有自學 聯想 對比 推理和概括的能力 基于a n n 的語音識別系統通 常由神經元 訓練算法及網絡結構等三大要素構成1 24 1 不同層之f b j 的神經元通過 一定的加權系數相互連接 這些加權系數在訓練中加以學習 每個神經元對所有 的輸入進行讀取 然后把結果傳到下一層的神經節點上 神經網絡采用并行處理 機制 具有高速的信息處理能力 并且有著較強的適應和自動調節能力 神經網 絡在訓練過程中能不斷調整自身的參數權值和拓撲結構 以適應環境和系統性能 優化的需求 在模式識別中有著速度快 識別率高等顯著特點 基于人工神經網絡語音識別系統具有很大的發展空間 但普遍存在訓練 識 別時間過長的缺點 目前有將神經網絡同傳統方法相互結合的語音識別系統的研 究方法并取得一定進展 2 2 嵌入式語音識別介紹 嵌入式語音識別是在具有一定計算能力和存儲資源的嵌入式平臺上進行的 語音識別 由于語音交互的自然性 嵌入式平臺的語音識別技術和應用是人們認 識到的語音識別技術最適宜的應用切入點之一 另一方面 嵌入式系統對體積有 嚴格的限制 這就需要一個高度集成的硬件平臺 s o c 技術因此而產生 成為 了嵌入式語音識別中一個重要的研究方向 2 2 1s o c 技術 s o c 設計技術始于2 0 世紀9 0 年代中期 它是一種系統級的設計技術 s o c 系統將原來由許多芯片完成的功能 集中到一塊芯片中完成 s o c 的丌發是從 整個系統的功能和性能出發 利用i p 復用和深亞微米技術 采用軟件和硬件結 北京丁業入號 工學 壩l j 掌位論義 合的設計和驗證方法 綜合考慮軟硬件資源的使用成本 設計出滿足性能要求的 高效率 低成本的軟硬件體系結構 從而在一個芯片上實現復雜的功能1 2 川 s o c 的設計以a s i c 或f p g a 為物理載體 使用a s i c 為物理載體進行芯片 設計的技術稱為片上系統技術 即s o c 以f p g a 芯片作為物理載體的s o c 系 統稱為可編程片上系統 s o p c 它是一種特殊的片上系統 但它是可編程的系 統 具
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 陜西省民政廳事業單位真題2024
- 2024年廣東省政務服務數據管理局下屬事業單位真題
- 2024年昆明市五華區第三幼兒園教育集團招聘筆試真題
- 2024年福建醫科大學附屬第二醫院招聘筆試真題
- 江蘇疫情資金管理制度
- 服務大廳營地管理制度
- tpm掃描考核管理制度
- 幼兒園送菜人員管理制度
- 按階梯給藥講課件
- ppp項目規范管理制度
- 構網型逆變器技術綜述
- 高層建筑施工進度計劃表doc111
- 【語文】陜西省西安市高新一小小學三年級下冊期末試卷(含答案)
- XX市沙灣區美女峰景區建設項目意見書
- 廣東省深圳市普通高中2022-2023學年高一下學期期末數學試題
- 腫瘤防治科普叢書:胃腸腫瘤
- 提高門診一醫一患執行率
- 相機租賃合同書
- 重癥患者用藥安全課件
- 培訓MSDS專業知識課件
- 風電場齒輪箱潤滑油使用規定(2023年727修訂)
評論
0/150
提交評論