




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
信息技術全雙工語音交互系統通用技術要求國家市場監督管理總局國家標準化管理委員會IGB/T44089—2024 1 13術語和定義 1 2 25.1系統參考功能框架 2 4 56.1核心要求 56.2聲學處理層 66.3語音識別層 66.4對話處理層 66.5語音合成層 6 67.1語音識別層 67.2對話處理層 77.3語音合成層 77.4交互響應時間 7附錄A(資料性)FDX語音交互過程案例 8A.1車載終端場景 8A.2智能客服場景 8A.3智慧辦公場景 9A.4智能家居場景 ⅢGB/T44089—2024本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起草。本文件由全國信息技術標準化技術委員會(SAC/TC28)提出并歸口。本文件起草單位:中國電子技術標準化研究院、科大訊飛股份有限公司、美的集團(上海)有限公司、深圳市騰訊計算機系統有限公司、北京百度網訊科技有限公司、中國電信集團有限公司、小米通訊技術云天勵飛技術股份有限公司、北京電信規劃設計院有限公司、思必馳科技股份有限公司、杭州方得智能科技有限公司、羚羊工業互聯網股份有限公司、合肥智能語音創新發展有限公司、深圳市矽赫科技有限公司、上海智能制造功能平臺有限公司、北京捷通華聲科技股份有限公司、馬上消費金融股份有限公司。1GB/T44089—2024信息技術全雙工語音交互系統通用技術要求2規范性引用文件本文件沒有規范性引用文件。3術語和定義下列術語和定義適用于本文件。全雙工fullduplex能夠同時雙向傳遞數據的通信方法。能夠完成特定目標的硬件或軟件實體。語音識別speechrecognition將人類的聲音信號轉化為文字或者指令的過程。使功能單元理解人說話的意圖。語音合成speechsynthesis交互過程中使用的具有一定邏輯的對話文本內容。3.7GB/T44089—2024FDX:全雙工(FullDuplex)MOS:平均意見得分(MeanOpinionScore)VAD:聲音活動檢測(VoiceActivityDetection)圖1所示的FDX語音交互系統的參考功能框架包括交互層、知識和數據資源層、AI和機器學習層信號通過聲學處理層以及語音識別層識別為純文本,通過對話處理層理解輸入信號的真實意b)知識和數據資源層主要為交互層提供必備的數據資源和知識庫。用戶滿足自己的需求。聲學處理層聲學處理層語音信號獲取場景數據語音合成層用戶數據Al和機器學習層模型訓練基礎層終端知識庫對話處理層處理語音識別層識別過濾語音預處理語義拒識管理數據處理邊緣計算交互層云服務二二二二二二二二二二二二二二二圖1FDX語音交互系統的參考功能框架23GB/T44089—2024聲學處理層包括語音信號獲取和語音預處理。a)語音信號獲取是指使用麥克風或麥克風陣列提供連續音頻采集。b)語音預處理是指對采集的語音信號進行以下預處理中的一項或多項:語音增強、聲源定位、去語音識別層包括連續語音識別、語義VAD、無關內容過濾。a)連續語音識別是指將用戶連續的語音信號轉化為文字或者指令的過程。b)語義VAD是指通過對語音蘊含的語義進行理解,得到語音活動幀的判別結果,比如用戶說“我想聽(停頓1s)XX的歌曲”,通過對語音片段“我想聽”的語義進行理解(此句話還未表達完整,缺少賓語信息),以此判別后續仍有語音活動幀。c)無關內容過濾是指通過對語音信號進行聲等。a)自然語言理解將文本或語音轉換為內部描述,該內部描述為輸入的結構化語義的表達。b)語義拒識是指系統通過自然語言理解技術,能夠區分系統當前狀態下不應處理的輸入信息,不應處理的輸入信息包括與交互任務以及對話主題或上下文無關的內容。c)語義后處理是指系統對輸入信號進行自然語言理解之后,對理解的結果進行后續再處理,比期值。d)對話管理是指系統跟進當前的對話狀態和上下文輸入,對對話的狀態進行更新,同時依據對話處理邏輯生成需要實施的對話動作。e)自然語言生成是指系統根據對話管理得到的對話動作,生成合適的自然語言文本。通過語音合成將文本合成語音。5.1.3知識和數據資源層知識和數據資源層包括場景和語境理解所需的相關知識和數據,場景和語境是指不同的場景或語5.1.4AI和機器學習層AI和機器學習層使用基于機器學習的AI方法進行數據處理、模型訓練和持續優化?;A層使用云服務和/或終端和/或邊緣計算的方式來提供FDX語音交互能力,其中語音識別、對話管理、文本合成等組件可使用云服務進行處理。4GB/T44089—20245.2系統交互過程FDX語音交互系統的交互過程示例如圖2所示,交互過程用于表示用戶與FDX語音交互系統之間的語音流傳輸。FDX語音交互系統與一般的半雙工語音交互系統的交互過程至少存在以下區別。a)一次喚醒多次交互:FDX語音交互系統只需在對話開始時喚醒一次,用戶能連續對話(語音采集設備在預設的時長內沒有有效人聲輸入,則停止采集,進入休眠狀態)。如圖2所示,用戶通過輸入語音信號“XXX”喚醒機器,然后進行了三次連續對話。一次完整對話過程會依次執行景和語境,知識和數據,以及各模塊的實現計算方法。FDX語音交互系統通過對輸入的語音信號或其他輸入信息進行處理,最終輸出合成的語音或者其他信息與指令動作。FDX語音交互系統可持續接收輸入的各類信號,包括但不限于語音信號、信息和請求等,將有用的信號轉錄為文本,從轉錄文本中提取語義信息,根據語義信息對交互任務進行預測和決策,根據預測b)用戶語音動態結束判別:在用戶與FDX語音交互系統交互過程中,針對用戶輸入停頓,FDX語音交互系統應能夠實現智能等待,從而實現連續對話,其中,語義VAD是指通過對聲音蘊含的語義進行理解,得到語音活動幀的判別結果。如圖2所示,比如用戶說“我想聽(停頓1s)XX的歌曲”,通過對語音片段“我想聽”的語義進行理解(此句話還未表達完整,缺少賓語信息),以此判別后續仍有語音活動幀。即FDX語音交互系統忽略中間的1s停頓,持續收c)上行/下行信道并行處理:FDX語音交互系統中用戶和機器應能夠同時相互通信,即上行信道 (輸入自然語音)和下行信道(輸出人工語音)應能夠在相同的時間間隔內接收和發送語音信號。用戶應能夠隨時自由打斷功能單元的講話,機器可以在用戶說話或保持沉默時管理節奏或給出提示。使得在任一時刻,FDX語音交互系統可以同時處理輸入輸出信號,實現雙工通信交互。如圖2所示,比如用戶說“合肥今天的天氣”,FDX語音交互系統會依次對“合肥今天的天氣”執行語音識別、語義理解、對話管理和自然語言生成,在生成交互回復語“合肥今天……”被打斷暫停播放的同時,可持續監聽接下來用戶輸入的語音信號“上海呢”。系統此時可在不影響上一輪交互回復語經過語音合成模塊,生成合成后音頻的同時,對本輪輸入信號理上下行通道。FDX語音交互系統應能夠根據用戶的狀態和場景,對用戶的意圖進行一定程度的預測,控制對話的節奏,并主動給出反饋和信息,引導用戶下一步的行動。不同應用場景下FDX語音交互過程案例見附錄A。5GB/T44089—2024語音識別語音合成語音識別語義理解對話管理被打斷暫停播放語音合成語音識別語義理解對話管理(上海今天10℃,有雨)沒有輸入信號(預設時長后)上行打斷(上海呢)用戶休眠下行圖2FDX語音交互系統的交互過程示例6功能要求a)用戶進行一次喚醒(即觸發用戶界面的語音控制操作)可完成整個對話流程,即系統應只需要b)在整個交互過程中可根據需要隨時打斷,即系統應能在廣播或講話過程中的任何時刻被用戶c)應對連續音頻流進行VAD,能實現連續語音識別,并根據對話上下文的語義理解進行用戶意6GB/T44089—2024結合之前的響應上下文與常識實施合理的主動對話,在用戶說話6.2聲學處理層聲學處理層支持以下功能:b)應能夠實現近場音頻采集和遠場音頻采集,其中,近場通常是指話筒與語音源之間的距離在語音信號的信噪比。語音識別層支持以下功能:c)應能夠從連續語音流中檢測多個語音片段的起點和終點;d)應能夠設置兩個語音片段之間的靜音等待時間并調整VAD的靈敏度;e)應根據語句和場景的語義拒絕對不當內容的識別;f)應支持中文;g)應支持方言和/或多語種。對話處理層支持以下功能:a)應能夠理解用戶的意圖,并根據知識和數據對未來的會話內容做出一定程度的預測;c)應能夠生成用于形成人工語音的文本,文本的內容可以包括:簡單的回復文本、基于預定義模6.5語音合成層語音合成層支持以下功能:a)應支持多語種;b)應能夠處理連續的語音流;c)應能夠模擬目標說話人的語音特征,輸出具有目標說話人聽覺感知特征的語音;7性能要求7.1語音識別層語音識別層的性能指標包括句識別正確率和字識別正確率:a)在低噪聲環境(信噪比10dB以上)下,語音識別句識別正確率應大于或等于84%,語音識別GB/T44089—2024字識別正確率應大于或等于95%;b)在高噪聲環境(信噪比10dB及以下)下,語音識別句識別正確率應大于或等于75%,語音識別字識別正確率應大于或等于88%。7.2對話處理層對話處理層應滿足以下要求。a)在有限域的交互場景或者其他特定場景中,應支持基于語義的播報打斷:1)在檢測到用戶輸入部分有效信息但仍需要其他信息時,回復反饋語;2)在進行目標場景的交互時,系統對目標場景用戶語句意圖理解的精確率大于或等于90%,召回率大于或等于90%;系統對目標場景用戶語句中的關鍵信息提取的精確率大于或等于90%,召回率大于或等于90%,關鍵信息是指輸入語句中滿足系統正確響應用戶請求的所有必要槽值信息。b)為了保障用戶端到端交互體驗,考慮噪聲環境對理解結果的影響,應滿足:1)在低噪聲環境(信噪比10dB以上)下,非人機交互響應率小于或等于6%,非人機交互響應率是指非人機交互場景下系統給出話術響應的數量占機器收音成功的所有非人機交互話術數量的比例;2)在高噪聲環境(信噪比10dB及以下)下,非人機交互響應率小于或等于10%。7.3語音合成層MOS應大于或等于4.2,其中,MOS的量化規則見表1。表1MOS的量化規則MOS規則5分(非常自然)和播音員真人發聲非常接近,達到可以以假亂真的程度??傮w聽感清晰、流暢,評測者樂于接受4.5分(較自然)發音清晰、可懂。總體聽感流暢,評測者愿意接受,沒有明顯韻律錯誤4分(自然)勉強接受,沒有明顯的分詞錯誤,在語氣節奏處理上沒有大問題3分(一般)基本能接受(打分的一個分界線分),但語氣節奏處理上問題較多,音節之間不流暢感較重。測聽人不太愿意接受,有明顯疲勞感2分(不自然)一些關鍵詞聽不清楚,評測人員不愿意接受1分(非常不自然)發音不清晰,聽不懂,機器音質。只能表達斷續、個別的語音信息,無法猜測句意,不能接受7.4交互響應時間全雙工語音交互響應時間應不超過1.5s,響應時間為從用戶語音輸入結束到系統合成語音響應的時間。78FDX語音交互過程案例A.1車載終端場景車載終端交互場景下用戶和機器交互過程中使用FDX語音交互的案例如圖A.1所示。喚醒喚醒有什么吩咐正在為您導航到故富博….正在為你生成途經加油站的導航路線已關閉車窗,目前車內空調溫度26°,正在為你打開座椅加熱正在為你播放XXXX你好導航去故宮博物館打斷補充先去加油站吧打開座椅加熱(繼承歌曲名“傳奇”)1(無意圖語音)(中間無喚醒交互)圖A.1車載終端HDX語音交互過程A.2智能客服場景智能客服交互場景下用戶和機器交互過程中使用FDX語音交互的案例如圖A.2所示。9上個月這個理財收益怎樣上個月這個理財收益怎樣閑聊那還可以這個月有推薦的(停頓打斷我知道了,這個月還有其他推薦理財產品嗎(無意圖語音)_打斷歡迎致電,請問歡迎致電,請問稍等,您于1月3日購買的理財將于本月到期,需要幫您續約嗎月收益為XX元您好,請問還有什有三個月結構性存款,預計年化收益率為XX,1萬..款理財產品非常適合您…閑聊響應短時記憶(說話中停頓2s)主動歡迎圖A.2智能客服FDX語音交互
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧省大連市2022-2023學年高二下學期期末考試化學試題(含答案)
- 介紹玩具活動方案
- 從軍夏日活動方案
- 倉儲貨架促銷活動方案
- 倉庫清理活動方案
- 付費專欄活動方案
- 代表之家活動方案
- 代賬公司節假日活動方案
- 企業與企業團建活動方案
- 企業代言活動方案
- 《西安交通大學》課件
- 科室醫療質量與安全管理小組成員及職責
- 公車駕駛員安全教育
- 《選品與采購》課件-4.電商采購
- T-HSPP 0017-2024 含多肽氨基酸水溶肥料
- 《慢性腎臟病肌少癥診斷、治療與預防專家共識(2024年版)》解讀
- 突發公共衛生事件衛生應急
- 2023年學校管理心理學考試復習題庫(含答案)
- 關于納粹德國元首希特勒的歷史資料課件
- 2024年黨建知識競賽培訓題庫及答案
- PVC膜生產工藝流程
評論
0/150
提交評論