CRSS-T-2023-009-服務機器人 中文語音交互系統性能測評方法_第1頁
CRSS-T-2023-009-服務機器人 中文語音交互系統性能測評方法_第2頁
CRSS-T-2023-009-服務機器人 中文語音交互系統性能測評方法_第3頁
CRSS-T-2023-009-服務機器人 中文語音交互系統性能測評方法_第4頁
CRSS-T-2023-009-服務機器人 中文語音交互系統性能測評方法_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240.01

CCSJ28

CRSS

重慶市機器人學會團體標準

T/CRSSXXXX—XXXX

服務機器人中文語音交互系統

性能測評方法

Servicerobots-Chinesesspeechinteractivesystem-Testingassessmentapproaches

(征求意見稿)

在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。

-XX-XX發布XXXX-XX-XX實施

重慶市機器人學會發布

T/CRSSXXXX—XXXX

服務機器人中文語音交互系統

性能測評方法

1范圍

本文件規范了服務機器人中文語音交互系統性能測評方法的術語定義、技術要求、試驗條件、試驗

方法、等級評價指標。

本文件適用于服務機器人中文語音交互系統。

2規范性引用文件

下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB3096-2008聲環境質量標準

GB/T17696-1999聲學測聽方法第3部分:語言測聽

GB/T21023-2007中文語音識別系統通用技術規范

GB/T21024-2007中文語音合成系統通用技術規范

GB/T36464.2-2018信息技術智能語音交互系統第2部分:智能家居

GB/T36464.4-2018信息技術智能語音交互系統第4部分:移動終端術語和定義

3術語和定義

下列術語和定義適用于本標準。

語音交互speechinteraction

人類和功能單元之間通過語音進行的信息傳遞和交流活動。

[來源:GB/T36464.2-2018,3.1]

語音交互系統speechinteractionsystem

由功能單元(或其組合)、數據資源等組成的能夠實現與人類之間進行語音交互的系統。

[來源:GB/T36464.2-2018,3.2]

語音合成speechsynthesis

通過機械的、電子的方法合成人類語言的過程。

[來源:GB/T21024-2007,3.1]

在線online

處于跟互聯網相連接的狀態。

[來源:GB/T36464.2-2018,3.3]

脈沖編碼調制PCMpulsecodemodulation

對連續變化的模擬信號進行抽樣、量化和編碼產生的數字信號。

語音識別準確率speechrecognitionaccuracy

將人類的語音信號轉化為正確文本的概率。

3

T/CRSSXXXX—XXXX

任務驅動的多輪對話task-orientedspokendialoguesystems

滿足人類特定目的的持續對話。

問答Q&A

直接根據問題給出答案。

3.9

開放域聊天open-domainchat

不局限話題的聊天。

3.10

響應時間responsetime

從語音例句播放完成至系統做出語音反饋開始而所用的時間。

3.11

語音喚醒speechwakeup;voicetrigger

處于音頻流監聽狀態的語音交互系統,在檢測到特定的特征或事件出現后,切換到命令字識別、連

續語音識別等其他處理狀態的過程。

[來源:GB/T36464.2-2018,3.13]

3.12

誤喚醒falsewakeup

語音喚醒過程中出現的,無音頻流或者音頻流中沒有出現喚醒所需的特征或事件時,語音喚醒系統

被喚醒的現象。

3.13

穩定性stability

語音交互系統在正常網絡條件下穩定工作的能力。

4創建測評語音材料數據庫

測評語料設計

測評語料應從句型覆蓋、詞匯量覆蓋、語義覆蓋以及詞域覆蓋等加以設計。評測集文本分為若干組,

每組可以由若干人發音組成。設計要求如下:

a)應針對被測評的服務機器人產品的自身特性進行設計;

注:如針對兒童陪護的服務機器人產品應加入相關語料,如兒歌、故事等對話語料內容。

b)應從不同領域、不同環境的語料中隨機選擇,同時考慮發音現象的覆蓋性;

c)應充分考慮句型、詞匯、語義等的覆蓋性;

d)應根據不同測試項目的試驗目的進行測試句的內容設計;

e)測評語料除了核心主句,還應配備核心主句的相似變形句進行測評。

注:語料基礎話題類別可參考:新聞、天氣、時間日程、股票、體育、科技、日歷、美食、旅行、音樂點播、電影、購

物、花藝、家居、服裝、美妝、養老、醫療、游戲等多種類別方向。

語音錄制要求

4.2.1錄制設備及環境

為了清晰地錄制說話者的聲音,應考慮如下事項:

a)錄音場所要選擇隔音效果好的,且能夠隔絕反射音及外部噪聲的地方,如消音室;

b)需要選擇中音帶域和高音帶域的頻率響應特性好的測量麥克風;

c)調整說話者的嘴和麥克風至合適的距離,如圖1所示,建議為15~20cm,不要超過聲音等級的

最大許容值,以免形成不正確的發音;

4

T/CRSSXXXX—XXXX

圖1錄音距離示意圖

d)會受到事先錄制的聲音音壓影響的說話者,其嗓音、講話語速和理想聲譜宜依照ISO/TR4870-

1991的2.24~2.26中的規定;

e)錯誤的發聲、波形截斷、無法理解的聲音、舌短音、感嘆詞等都屬于錯誤的,需要讓發聲者再

次發聲;

f)錄制音頻時,使音頻信號等級的平均最大振幅保持在16bit左右(動態范圍96dB),音頻信號

的采樣頻率可設置為44.1kHz,參見附錄B;

g)音頻信號以44.1kHz的16bit線型PCM數據進行存儲,再將音頻文件壓縮為MP3的格式進行

使用;

h)錄音過程至少包括錄音、標注和確認三個步驟,保證測評數據庫的正確性。

注1:男:低音82~392Hz,基準音區64~523Hz;中音123~493Hz,高音164~698Hz。

注2:女:低音82~392Hz,基準音區160~1200Hz;中音123~493Hz,高音220~1.1kHz。

4.2.2發音人員

測評語音錄制時對發音人員的要求如下:

a)發音人員應持有國家普通話水平測試等級二級乙等(含)以上證書;

b)發音人員的選擇應在符合系統對發音人員限制的條件下,盡可能選擇具有代表性和統計分布

規律的發音人員,特別是考慮不同口音、不同年齡、不同語速、不同教育背景、不同說話韻律

等因素;

c)無論是特定人還是非特定人的中文語音交互系統,進行測試的發音人員至少為20個人以上;

每人需對測試語料中的一組或多組發音;

d)不同發音人盡量采用不同語料組;

e)對于非特定人的中文語音交互系統,特別應強調對有一定口音的中文適應能力和中文語調問

題。

5創建背景噪聲數據庫

噪聲種類

考慮到在機器人的服務環境中可能存在的主要噪聲,應準備能夠模擬此種環境的噪聲。環境噪聲選

定為如下兩個范疇:

a)白噪聲;

b)不同場所的生活噪聲。

家庭:TV、電話鈴聲、吸塵器、冰箱、空調、洗碗的聲音;

教育場所:教室中存在持續吵鬧和討論的聲音、老師講課的聲音;

公共場所:飯店、醫院、電影院、銀行、機場、火車站、商場、超市的聲音。

注:在測試過程中,以上所列舉的噪聲需持續發聲5s以上。

噪聲采集環境

為了錄制噪聲,應根據實際情況采取以下建議進行噪聲采集:

a)需要在實際生活的噪聲環境中進行錄音;

b)需要選擇中音帶域和高音帶域的頻率響應特性好的測量麥克風;

c)將噪聲源和麥克風調整到合適的距離,不要超過噪聲等級的最大許容值;

d)在一段噪音區間內的停頓時間要短于0.3s;

5

T/CRSSXXXX—XXXX

e)發出并收集5.1中所定義的噪音;

f)噪聲錄制格式為16bit,48kHz采樣的WAV格式,錄制的噪聲幅度最大值不能超過30000(單

位:樣本值),以免噪聲幅度銷頂;

g)要區分擴散場的背景噪聲和點聲源干擾噪聲錄制的區別;

h)擴散場的背景噪聲錄制應在不同位置設置麥克風進行錄制,便于還原真實噪聲場景;

i)點源干擾噪聲的錄制只需要一個麥克風在距離發聲源較近的地方錄制。

6測試環境搭建

生活場景

可用一些實物搭建被測設備實際工作時的使用場景或將被測設備置于實際工作時的使用場景中進

行測試。

注1:常見家用服務機器人使用場景為客廳,模擬家居客廳環境參考:正常標準白墻房間(無異形,最好不超過30

平方米)內布置大小方桌各一個,常見規整尺寸的沙發、電視柜、電視、落地空調、落地燈、裝飾隔板、窗

簾等等家具,家具大小尺寸樣式無具體要求,盡量貼合真實客廳場景,房間所處位置的實際生活噪聲不超過

7.3.5的要求即可,無需再次疊加新的背景噪聲。當被測設備帶有智能家居控制功能時,應為其配置可被控制

的家電產品。

注2:常見商用服務機器人使用場景為辦事大廳、展覽廳、會場等,可將待測機器人及測試設備帶入實際場景中進

行試驗展開。

消音室內場景

6.2.1背景噪聲還原

為了模擬真實的待測設備使用場景,推薦以下噪聲播放要求:

a)一個點聲源干擾只能用一個音箱設備播放,要考慮點聲源干擾的距離和角度,以及點聲源的個

數;

b)擴散場的背景噪聲一定要用多個音箱設備同時播放,比如房間的四個墻角,分別放置音箱,并

且音箱的出聲口對著墻,讓聲音經過墻面反射;

c)戶外場景的噪聲和室內場景的噪聲應考慮混響,比如要在消音室模擬戶外的噪聲場景,且要在

不同混響時間的房間模擬室內的噪聲場景;

d)要設置不同的背景噪聲和點源干擾等級,比如絕對安靜,較安靜(40dB-50dB),嘈雜(60-70dB),

很嘈雜(80dB以上),此聲壓為機器人麥克風陣列處測量的聲壓;

e)回聲場景(機器人本身揚聲器播放而又被麥克風接收到的回聲)要考慮機器人本身播放語音聲

壓大小等級(比如50dB以下,50dB-70dB,80dB-最大聲),此聲壓為機器人麥克風陣列出測

量的聲壓,且需考慮機器人所處環境的混響、是否同時有點源干擾或者背景噪聲等變量。

6.2.2語料聲源位置

a)按照實際具體使用場景下,使用設備與聲源的相對距離、相對高度進行聲源的擺放;

注1:部分被測產品可參考如下,教育機器人多為桌面級產品,可設定語料發聲口距離機器人中心點30cm±5cm,設

定其他產品的距離時最好不超過40cm;語料聲源設備模擬使用者(成人)狀態站姿高度或者坐姿高度時時,

根據生活常見社交距離及機器人拾音情況,可設定語料發聲口距離機器人中心點50cm~100cm。

注2:GB/T36464系列標準中規定,小于1m為近場距離,大于1m(含)為遠場距離。

b)語料聲源設備數量定為1個。

6.2.3待測設備的位置

考慮到實際情況中,待測設備的使用情況,設備的位置會明顯影響收音的質量,應該對待測設備的

位置做以下考慮:

a)是否靠墻;

b)是否在墻角;

c)靠墻的距離;

d)按照實際使用場景下,使用者和待測設備常見的距離設置發聲設備與待測設備的距離。

6

T/CRSSXXXX—XXXX

7測試方法

概述

為保證中文語音交互系統評測的再現性,評測應盡量采用基于語音材料數據庫的測試方法。無法采

用基于語音材料數據庫測試的,可采用基于現場口呼的測試方法。評測語料的設計與測評語音材料數據

庫的錄制應保證與實際使用場景的一致性,測試的結果以滿足規范的評測報告形式給出。

基于語音材料數據庫的測試方法說明

基于語音交互標準庫的測評過程采用錄制的語音數據對被測系統進行間接測試。方法說明如下:

a)間接測試指利用高保真播放設備(或者人工嘴)把語音交互標準庫中語音輸出到被測系統;

b)在測試過程中,適時調整高保真播放設備與被測系統之間的距離(詳見6.2.2)及其擺放高度,

以滿足日常使用環境的實際需求;

c)設備播放方向正對被測樣品正面。

基于現場口呼的測試方法說明

現場口呼評測基本情況的要求與對測試語料的錄制要求類同,如下:

a)需要有兩個以上識別結果記錄者,記錄被測系統對當前發音的輸出結果;

b)記錄表應包括發音人、記錄人、操作人、監督人、發音內容、語音交互結果等內容;

c)全部發音者測試結束后,統一按照性能標準進行指標評估,評估至少有兩個人以上參與;

d)對于交互結果能以文件形式給出的,被測系統對發音人的響應還應給出文件形式的輸出結果,

以便測評工作參考內容充分。

一般要求

7.4.1人員要求

a)試驗人員應具備熟練操作被試品、測試設備并具有相應的技術和能力;

b)口呼測試人員應額外符合條款4.2.2的要求。

7.4.2試驗要求

除本標準或詳細規范另有規定外,所有試驗應在下列條件下進行:

a)溫度:室內0℃~40℃;

b)相對濕度:10%RH~90%RH;

c)背景音/環境噪聲音量:50dB~70dB;

d)測試語音播放音量應保持在75(±5)dB;

e)被測設備電量充足,可正常使用,并且應確保被測設備具有語音拾音功能,可通過對話方式對

其進行控制和交互;

f)測試所需網絡滿足上行帶寬不低于100kbit/s、下行帶寬不低于50kbit/s,并保持穩定的連通

狀態;

g)混響時間:用于播放語料的揚聲器處混響時間不超過0.65s。

7.4.3數據記錄及處理

除個別項目有單獨的規定外,一般用揚聲器或人工嘴播放測試語料3次,在此過程中,測試人員可

依據情況靈活選擇口呼形式,測試次數也應為3次,最后以最優數據進行原始記錄。

試驗項目

7.5.1問答

7.5.1.1試驗目的

測試語音交互系統在執行一問一答任務時的“答案準確度”。

7.5.1.2試驗方法

7

T/CRSSXXXX—XXXX

語音交互系統在正常工作的狀態下,根據被測系統語音交互類別特性,有選擇性地通過測評語音材

料數據庫中的問答句進行提問,當得到答案后測試人員記錄該反饋答案(如果答案過長,測試員可簡潔

匯總記錄),并依照系統反饋結果是否能解答對應問題為標準,以打分方式進行記錄,打分規則應符合

本標準附錄A表A.1語義解析評分標準中的規定進行。

注:機器人用本地或者云端固定答復用戶時,如你這樣問還能愉快地玩耍嗎等等,可簡要記錄為固定不相關。

7.5.2任務驅動的多輪對話

7.5.2.1試驗目的

對被語音交互系統進行連續、有關聯且伴有明確任務目的的對話,測試其對語義的處理深度。

注:該對話分為弱相關性多輪對話和強相關性多輪對話,在設計相應語料時應注意。

7.5.2.2試驗方法

語音交互系統在正常工作的狀態下,根據被測系統的語音交互類別特性,有選擇性地播放測評語音

材料數據庫中具有針對性的內容類型(如天氣、股市、時間日程等)來進行測試,每一類每一組下的多

輪對話例句均應進行測試。測試人員通過系統反饋結果,以是否完成相關任務為標準,記錄成功完成的

“有效對話輪數”,并計算該項目的任務完成率,詳見條款8.1。

注:建議每組多輪對話設置為五輪。

7.5.3開放域聊天

7.5.3.1試驗目的

測試語音交互系統在隨機的語音對話中穩定保持話題延續性的能力。

7.5.3.2試驗方法

語音交互系統在正常工作的狀態下,根據被測系統語音交互類別特性,有選擇性地通過測評語音材

料數據庫中的開放域測試例句作為開始,進行聊天,之后根據被測系統的反饋結果,以測試人員口呼為

主,口呼語料與被測結果相關且隨機。測試人員記錄被測樣品的話題延續輪數,并對該項目進行打分,

打分規則應符合條款8.2中的規定進行。

注:建議記錄截止輪數為5輪,并以5輪判定其聊天時長為滿分參考值。

7.5.4在線平均響應時間

7.5.4.1試驗目的

從用戶角度出發,測試語音交互系統在執行對話任務時,提供反饋所需要的時間。

7.5.4.2試驗方法

自語音例句播放完成的瞬間起測試人員開始計時,至被測產品做出語音反饋的開始瞬間完成計

時。記錄時間,每一個響應的時間總和除以總共測試次數即為在線平均響應時間,并將實際測試結果記

錄在原始記錄中。

7.5.5語音識別準確率

7.5.5.1試驗目的

測試語音交互系統對接收到的語音,正確識別語音中文字的能力。

7.5.5.2試驗方法

語音交互系統在正常工作的狀態下,根據被測系統語音交互類別特性,有選擇性地通過測評語音材

料數據庫中的每一類下的每一句語料進行測試,測試人員對照相應例句的識別結果記錄每一句測試例

句準確識別的字數,計算語音交互系統對聲源例句中文字的“識別準確度”,詳見7.5.5.3,將計算結

果及相應得分填寫在原始記錄表中,打分規則應符合條款8.3中的規定進行。

注:測試例句的識別結果大多數時候可通過從有顯示屏(若有)的被測系統觀察實時獲得,或從系統輔助APP云端獲得,

或從系統提供商后臺調出被測系統語音識別的文字數據記錄等等。

7.5.5.3識別準確率計算方法

8

T/CRSSXXXX—XXXX

參見式(1)和式(2)。

........................(1)

........................(2)

式(1)~(2)中:

N——語音文本總字數;

Mc——識別結果中正確識別字數;

Me——錯誤識別字數;

WER——語音識別的字錯誤率;

WCR——語音識別的字正確率。

7.5.6語音喚醒正確率

7.5.6.1試驗目的

測試語音交互系統在使用過程中被喚醒詞正確喚醒的能力。

7.5.6.2試驗方法

統計其他項目所有測試語料進行前,按照下式(3)計算語音喚醒正確率,記錄在原始記錄中。

式中:

........................(3)

B——語音喚醒正確率;

C——喚醒詞正確喚醒語音交互系統的次數;

D——總呼喚次數。

7.5.7語音誤喚醒頻度

7.5.7.1試驗目的

測試語音交互系統在不使用待機時或者使用過程中被誤喚醒的情況。

7.5.7.2試驗方法

將被測產品放于試驗室環境中最可能受影響的一處并調至待命狀態,在不主動喚醒產品的情況下,

循環播放預錄制的環境背景噪音,并通過攝像機記錄產品狀態,測試時間持續幾個小時后,測試人員通

過視頻統計被試品自動喚醒的次數,并記錄在原始記錄中,計算頻度方法見下式(4)。

........................(4)

式中:

θ——語音誤喚醒頻度;

E——被誤喚醒的次數;

h——測試時間,小時。

7.5.8使用穩定性

7.5.8.1試驗目的

綜合考察語音交互系統在使用過程中的性能穩定性,如非法操作、死機頻率、語音反饋突然中斷等

各類情況。

7.5.8.2試驗方法

9

T/CRSSXXXX—XXXX

a)此項目測試人員應全程參與過被測語音交互系統的其他所有項目測試,并具備服務機器人測

試經驗,方可參與主觀評價;

b)在其他所有項目測試完畢后,多名測試人員進行綜合判定,以文字描述的方式體現在原始記錄

中。

7.5.9語音合成

7.5.9.1測試目的

綜合主觀評價被測語音交互系統所反饋的語音質量和用戶接受度。

7.5.9.2試驗方法

男女測試人員各2人,通過其他項目的語音反饋結果,測聽合成語音同真人語音在音質、可懂度、

自然度和流暢度等方面的差異,并以平均意見得分對主觀測評進行量化,并將文字描述結果及相應得分

填寫在原始記錄表中,打分規則應符合條款8.4中的規定進行。

8評價標準

任務驅動的多輪對話

a)“有效對話輪數”為測試五輪全部語料后,采用遞進方式判斷記錄,按照其前面的最優結果進

行有效輪數的記錄,如單輪對話記1,能連續進行到相鄰二輪對話記2,能連續進行到相鄰三

輪對話記3;

b)計算該測試項目的任務完成率并記錄,總有效對話輪數(N)與總預設對話輪數(M)的比值,

N/M×100%為任務完成率(C)。

開放域聊天

a)5分:優(聊天內容種類豐富且持續輪數多),4分:良(聊天持續輪數多),2~3分中(聊

天有一定內容但持續輪數短),1分:及格(能進行聊天但持續輪數極短),0分:差(不能

進行響應聊天);

b)該項目以聊天話題的延續性作為評判標準,如被試品能成功延續話題或完成用戶的相關需求,

則視為測試成功,記錄話題延續輪數。

語音識別準確率

識別準確率90%以上5分,識別準確率85%-90%之間4分,識別準確率70%-85%之間3分,識別準確

率60%-70%之間2分,識別準確率60%以下1分。

語音合成

該項僅針對被測產品做出的回復中所包含的語音合成部分(直接播放歌曲、錄音內容,及無應答均

不在打分范圍內)進行打分,5分:優(接近人類自然語音狀態);4分:良(機械合成感不明顯);3

分:中(機械合成感較明顯),0~2分:差(有明顯機械合成感)。記錄平均結果,語音合成平均意見

分為總分/打分人數。

10

T/CRSSXXXX—XXXX

A

A

附錄A

(規范性)

語義解析評分標準表

表A.1語義解析評分標準表及示例

評分標準要求解釋舉例

5分回答正確+內容精準。全部理解語義,并給出了精準的回答。Q:泰山多高?A:1545米。

A:泰山坐落在山東省中

正確理解語義,并用有效的語料進行回部,為中國五岳之首,主峰

4分回答正確+有多余內容。Q:泰山多高?

答,但句式上有多余內容。玉皇頂,海拔1545米,高度

居五岳第三位。

A:泰山又名岱山,坐落在

山東省中部,為中國五岳

基本回答正確+多余數據+基本理解語義,但句子內容錯誤包括:錯

之首,古稱“,主峰玉x頂,海

3分句式內容有錯誤+答案啰別字、缺漏字、內容有誤,答案長度過于Q:泰山多高?

拔1545米,世界自然與文

嗦(長度超過60字)。啰嗦。

化遺產,世界地質公園,國

家5A級景區......

基本理解語義+無數據支系統基本理解語義,但數據庫不支持回A:我不知道泰山多高,但

2分Q:泰山多高?

持而無法回答。答,或者對用戶進行提示性回復。我知道泰山在山東泰安。

沒有全部理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論