




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
運用MFCC和DTW算法構建高效語音導診助手系統摘要人工智能是未來醫療的發展趨勢,近些年來,隨著語音識別關鍵技術的不斷突破,市場上涌現了各種各樣的相關的應用。其中,在智能家居、汽車、物聯網等多個領域已經被廣泛應用。但是據我們調查發現,語音識別技術在醫療領域的應用還未普及,在大多數醫院中,人工智能還未能替代護士站、詢問臺甚至醫生,這也導致醫院的工作人員和護士每天將花費大量的時間在病人的問詢上。通常在繁忙時段,可能會導致病人就醫的困難,因此,通過使用語音識別技術來替代詢問臺變得極為重要,這樣將大大提高病人就醫的效率并減輕醫院工作人員的壓力。本課題結合語音識別技術構建醫療智能導診系統,根據病人自我語音描述,協助醫生和病人更好的選擇對應的門診以進行診斷治療。研究內容如下:基于語音識別的關鍵技術和海量的醫療數據,實現移動端智能語音錄入,將語音信號進行預處理、端點檢測、特征提取、模式訓練,識別患者語音內容,對其進行準確引導。系統特色:實現快速信息錄入和輸出,減輕醫院咨詢臺和護士站工作人員的服務壓力,提高工作效率與質量。本文實現了一個運用了MFCC和DTW算法來實現的語音導診助手,整個設計通過GUI界面,通過錄音采集語音,由語音識別模塊對孤立詞病癥進行識別,然后出現對應科室,以實現對病人的準確導診。本文的主要內容有:運用了傳統的端點檢測方法雙門限端點檢測法。先對語音信號進行預處理,包括預加重、分幀加窗等。運用了Mel倒譜系數(MFCC)對語音進行特征提取。在端點檢測后著重說明了使用的MFCC原理與設計過程。并對MFCC、LPC和LPCC方法進行了比較說明。使用了DTW算法。本文利用了DTW算法,著重說明了算法原理和步驟。并與傳統算法HMM和ANN進行了對比,給出了本課題使用DTW算法的原因。設計了GUI界面。設計的GUI界面包括了語音錄入、特征參數提取、識別等主要部分。并且通過GUI界面可以方便快捷地讓用戶操縱系統。關鍵詞:語音識別;導診助手;DTW;MFCC;GUI目錄引言 [5]。歐氏距離指的是失真度量d,它的計算方式是沿著參考和計算模板的矩形對角線進行的。DTW采用的動態規劃計算(DynamicProgramming)將解決優化問題的方式從整體變為局部。本文研究背景下我們充分估算了這種情況的影響測試模板和參考模板我們可以用T和R來表示,而D[t,r]是它們之間的距離,距離越小相似度越高,距離越大相似度越高。如果它們之間的距離不等,我們就要對齊T和R。動態規劃計算(DynamicProgramming)簡稱DP就是對齊的方法。在數據解析路徑的抉擇中,本研究不僅保留了傳統的統計解析工具,如描述性統計和回歸分析,還融入了近年來迅猛發展的數據挖掘技術與算法。例如,運用聚類分析揭示數據中的潛在規律,或借助決策樹算法預測未來走勢。這些前沿方法為深入探索復雜現象提供了有力武器,有助于揭示海量數據背后的深層次關聯。此外,本文特別注重混合方法的應用,即融合定量與定性研究,以拓展研究視野,實現更全面的認知。下圖所示的是兩段語言信號時域圖,可以大致看出兩語音比較相似,但是由于很多外界條件因素導致每個語音信號的波形并不相同,如果我們直接進行對比,結果顯然不行,如圖a和b。所以我們將處于相同時刻上的兩聲音進行對比,如a和b’,但是顯然由圖上可以看出,它們的位置有偏差,在這般的框架內所以我們需要將它們先對齊再進行相似度計算。DTW算法正是應用了以上的理論,它可以找到兩個對應的點并且使它們的距離計算的合理(陶曉東,鄭麗娟,2021)。圖4-1兩段語音波形4.1.2DTW算法步驟首先我們要構造一個m*n的矩陣A來進行對齊。其中矩陣A(i,j)就是Ti和Rj的距離。比如A(1,2)就是T2和R2的距離(嚴皓翔,鄭君浩,2021)。正如下圖4-2所示,我們提取的英文單詞的語音特征,他們的長度不相等,第一個語音有105幀而第二個語音有123幀。所以我們可以構造出一個123*105的矩陣。然后計算每個點的距離。圖4-2兩語音特征參數圖圖4-3代碼表示我們將每一維的點進行計算求和就可以表示出總距離。在經過循環的計算后,我們可以得出距離矩陣d。如下圖4-4所示(顧云飛,劉曉紅,2021)。圖4-4部分點距離隨后,在知道我們所有的點的距離后我們要尋找最短對齊路徑。經過距離的累加,可以得到最小的累加距離,這也就能表示兩個特征參數的相似度大小。找到最短路徑W需要滿足邊界條件、連續性條件和單調性條件。下面進行三個條件的分析(林澤宇,傅雪柔,2022):邊界條件顧名思義就是確定路徑的邊界,這在一定程度上映射我們要從起始點一直到結束點,不可半途而廢。連續性條件我們在路徑的選擇上不能跳過某點,比如當前在W(a,b)上,下個點為W(a’,b’),要滿足a+1≤a’,b+1≤b’。單調性條件單調性條件就是我們的路徑必須是往前推進的,假設當前在W(a,b)上,下個點為W(a’,b’),要滿足a’-a≥0,b’-b≥0。所以我們必須按照W(i+1,j),W(i,j+1),W(i+1,j+1)作為路徑選擇,也就是有三個方向可以走。我們只需要找到三個中最小的方向就可以進行不斷向前累加,直到終點。這部分代碼如下圖4-5所示。圖4-5代碼表示由以上條件,我們可以計算圖4-4的最短距離,如下圖4-6中的紅線所示。圖4-6最短路徑最后就是識別的過程,我們將待識別的語音的特征參數與樣本庫中的語音的特征參數經過DTW計算后,得到的最短距離,對比它們的大小,然后可以判斷相似度的高低。4.2與其他方法比較目前來看,本課題之所以選擇使用DTW算法,一是本設計是基于孤立詞識別的系統,DTW算法在孤立詞識別應用中被廣泛應用(盧俊延,趙一銘,2019)。二是因為DTW算法方便小巧,它有著識別快、靈活等優點。它與HMM算法相比,它的計算量比HMM少,但是在應對連續語音、大詞匯量識別系統時,它不如HMM算法,識別效果較差,在此類條件基礎上可以推知其變化但相對于本課題,DTW算法較為合適。而另外的廣為應用的ANN算法,它是一種模擬人的大腦神經網絡的算法,具有一些人大腦特有的特性。它的優點就是它有著很強的學習能力,正如人的大腦一樣(薛宇峰,馬思敏,2021)。但是它的缺點就是計算時間較長,而且識別的準度不高,不是很適合本課題的應用,通常我們使用ANN算法都需要將其與其他傳統算法相結合,這樣才能得到較好的識別效果。4.3本章小結本章主要介紹了DTW的算法原理和本課題應用的具體步驟,分析了DTW的優點以及適用于本設計的原因,最后對比了主流的模式匹配算法。5GUI界面的制作與程序運行過程5.1GUI界面的制作過程圖形用戶界面(GraphicalUserInterfaces)簡稱GUI界面是可以人機交互的一種工具。它可以通過用戶的一系列操作使計算機產生圖像計算等功能。一個良好的GUI界面設計應該滿足簡單性、一致性等原則。GUI界面的創建如下(孫智慧,周智航,2019):(1)在MATLAB中輸入guide打開GUI啟動界面。如圖5-1。圖5-1GUI界面的啟動(2)新建界面或者打開已有界面。圖如下。圖5-2新建界面或者打開已有界面(3)設計GUI界面在點擊新建GUI后,會出現空白的GUI界面,如下圖。我們需要用左邊的工具欄進行GUI設計。其中常用的工具有,按照前番之解析按鈕、可編輯文本、彈出式菜單等等。本設計的GUI界面主要有按鈕和坐標軸組成。圖5-3空白GUI界面(4)本文設計的GUI界面本此語音導診助手的GUI界面如下圖5-4所示。圖5-4智能語音導診助手GUI界面設計其中我使用了六個按鈕三個文本框,以及一個坐標軸。按鈕包括錄音、選擇語音庫、提取特征參數、選擇語音、識別、關閉。坐標軸主要體現語音信號以及端點檢測后的語音信號。在GUI界面上,為了體現導診助手的實用性,我添加了現場語音錄制功能,在點擊“錄音”按鈕后,我們進行語音(病情)輸入,立足于以上分析結果然后出現可編輯文本進行命名,然后添加到準備好的醫療信息語語音庫中(成澤光、宋向昊、林俊昊,2023)?!斑x擇語音庫”是讓用戶選擇語音文件,“提取特征參數”是提取語音的特征參數。“選擇語音”是選擇測試語音庫中的語音文件并播放選中的語音。“識別”是利用DTW算法進行的模式匹配,于此情境下然后識別出語音結果,以及輸出病癥語音對應的科室,如語音“咳嗽”對應的科室為“耳鼻喉科”。在識別過程中坐標軸還可以顯示出端點檢測后的語音信號。最后的“退出”按鈕可以供用戶選擇繼續進行識別操作還是退出(余佳怡,趙英杰,2021)。5.2程序運行過程(1)首先點擊GUI界面上的開始按鈕。如圖5-5。圖5-5開始(2)點擊開始后會出現可以運行的GUI界面。如圖5-6。圖5-6GUI界面(3)隨后單擊“錄音”按鈕錄入語音,比如“咳嗽”。然后在彈出的文本框中輸入病癥語音名稱“咳嗽”,隨后自動保存在語音庫中。如圖5-7。圖5-7第一步錄音(4)單擊“選擇語音庫”,選擇錄入的醫療病情信息語音庫。如下圖5-8。圖5-8選擇語音庫(5)點擊“提取特征參數”,單機后會迅速彈出進度條(大概0.2秒),隨后長文本框中出現“特征參數提取完畢”,表示提取完畢可以進行下一步操作。如圖5-9。圖5-9提取特征參數(6)點擊“選擇語音”選擇訓練庫中的語音。(7)點擊“識別”進行語音識別。出現識別結果,如下圖5-10。圖5-10語音識別結果(8)最后可以進行繼續識別,也可以點擊“關閉”退出操作。6結論6.1全文總結本文從基于孤立詞的語音識別算法出發,將其應用到智能語音導診助手中,通過語音輸入來進行相應的導診功能。本文的主要突出了DTW和MFCC算法的研究。使用了MATLAB軟件來進行設計和實驗過程的仿真,將算法應用到了具體的導診助手設計中,設計出總體的語音識別框架。最總達到設計要求,隨著形勢發展有著良好的語音識別準確率。具體工作總結如下:析討論了語音導診助手的研究背景和意義以及發展現狀。概述了本設計的語音識別系統的框圖,以及對語音系統的組成和分類進行了簡單介紹。分析介紹了語音信號處理中的理論基礎。包括預處理部分和端點檢測部分以及特征提取部分。其中預處理部分先是介紹語音信號的采集,然后介紹了預處理部分的預加重、去噪、分幀加窗、端點檢測等,并對關鍵部分的代碼進行了分析和設計思路簡述。著重介紹了本設計使用的雙門限檢測法和MFCC特征參數,和它們的實現過程。分析介紹了DTW算法。本設計選用了DTW算法,并且對傳統的DTW算法進行了簡單改進應用到導診助手設計中,使得對于孤立詞語音的識別速度大大增加,準確率得到了基本保證。并在最后與傳統經典算法進行了對比(許俊天,成瑾瑜,2023)。利用MATLAB平臺設計了GUI界面,設計了語音導診助手的操作界面。其中界面包括三大部分:語音獲取、特征參數提取、識別。GUI界面的制作可以讓用戶更為方便簡單地使用本語音助手,由此可以明顯觀察到可以方便快捷的讓用戶操作,并且方便后期的測試工作,提高了應用的效率。6.2展望本文的智能語音導診助手設計基本達到了任務書要求,但由于個人能力和時間的限制,本次設計還存在著很多不足的地方,比如可以對算法進行改進,增加識別的速率和精準度。本設計針對的是非特定人的孤立詞的病情語音識別,希望以后能在連續語音和大詞匯量語音識別系統上得到應用。本次設計使用的是MATLAB平臺的GUI界面來實現設計應用,雖便于仿真,但是對于真實的生活需求應用還是不能夠滿足。所以可以考慮以后設計硬件系統,將語音識別系統移植到硬件中,這樣將更為實用。
參考文獻雷昊然,方紫悅.場景特定詞的非特定人語音識別[D].西安電子科技大學,2022.田悅澄,白樂天.非特定人孤立詞語音識別算法研究[D].南京郵電大學,2023.陶曉東,鄭麗娟.非特定人語音識別關鍵技術研究[D].國防科學技術大學,2021.嚴皓翔,鄭君浩.基于DTW和WMFCC的語音識別技術的研究[D].東北大學,2021.顧云飛,劉曉紅.基于改進型DTW的語音識別系統的研究[D].安徽大學,2019.林澤宇,傅雪柔.小詞匯量非特定人語音識別系統的研究[D].重慶大學,2012.盧俊延,趙一銘.基于語音識別技術的智能家居控制系統的設計[D].南昌大學,2018.薛宇峰,馬思敏.語音識別在中醫處方系統中的應用[D].電子科技大學,2015.孫智慧,周智航.基于孤立詞的語音識別算法研究及其應用[D].蘇州大學,2019.成澤光、宋向昊、林俊昊.基于DTW的孤立詞語音識別系統設計[J].長江大學學報(自科版),2018,15(17):33-37+5.余佳怡,趙英杰.高等院校信息與通信工程系列教材語音信號處理[M].清華大學出版社,2004.許俊天,成瑾瑜.MATLAB在語音信號分析與合成中的應用[M].北京航空航天大學出版社,2013.陳昊忠,趙潔妮.SpeechEnhancementBasedonFull-SentenceCorrelationandCleanSpeechRecognition[J].I(顧云飛,劉曉紅,2021)/ACMTransactionsonAudio,SpeechandLanguageProcessing(TASLP),2017,25(3).AbdelkbirOuisaadane,SaidSafi.AcomparativestudyforArabicspeechrecognition龔志強,邱藝瑾teminnoisyenvironments[J].InternationalJournalofSpeechTechnology,2021(prepublish).[1]AbdelkbirOuisaadane,SaidSafi.AcomparativestudyforArabicspeechrecognition龔志強,邱藝瑾teminnoisyenvironments[J].InternationalJournalofSpeechTechnology,2021(prepublish).LinYi,LiQin,YangBo,YanZhen,TanHuachun,ChenZhengmao.Improvingspeechrecognitionmodelswithsmallsamplesforairtrafficcontrol龔志強,邱藝瑾tems[J].Neurocomputing,2021,445.MyungjongKim,BeimingCao,TedMau,JunWang.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數據庫分布式架構設計試題及答案
- 入侵防御設備管理制度
- 關于公款使用管理制度
- 叉車司機崗位管理制度
- 工廠車輛設備管理制度
- 小區防凍物質管理制度
- 印染大中小修管理制度
- 停電操作單人管理制度
- 垃圾坑精細化管理制度
- 行政組織理論對接實踐的試題及答案
- 地理-美國 課件-2024-2025學年人教版七年級下冊地理
- GB/T 30134-2025冷庫管理規范
- 2025年安徽省合肥八中高考最后一卷地理試題及答案
- 安徽省合肥市45中學2025屆七年級數學第二學期期末監測模擬試題含解析
- 中學生成就目標導向下的學習滿意度影響機制探討
- 【課件】2025屆高考英語最后一課課件
- 預防醫學知識試題及答案匯編
- 初中化學教師招聘考試試題及參考答案
- 山塘租賃合同協議書
- 2025-2030年中國聚脲涂料行業市場現狀供需分析及投資評估規劃分析研究報告
- 地七年級下冊全冊知識要點總復習-2024-2025學年七年級地理教學課件(人教版2024)
評論
0/150
提交評論