




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
35.240.99
L70
CEST/CXXX
團體標準
T/CESXXX-XXXX
移動端智能交互訓練語料基本要求與
規范
Basicrequirementsand
specificationsofmobileterminal
intelligentinteractivetraining
corpus
(征求意見稿)
XXXX-XX-XX發布XXXX-XX-XX實施
Ⅱ
T/CESXXXXXXX
-
1范圍
本標準規定了移動端智能交互訓練時自然語言處理樣本(對話機器人交互文本意圖識別
樣本)的基本要求、標注要求和標注流程。
本標準適用于各單位進行移動端智能交互訓練模型開發時樣本標注和樣本入庫的統一
管理,包括樣本的質量管控、樣本標注的技術要求和流程管控。
2規范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T1.1-2009標準化工作導則第1部分:標準的結構和編寫
GB/T5271.28—2001信息技術詞匯第28部分;人工智能基本概念與專家系統
ZYF001-2018語料庫通用技術規范
T/CESA1040—2019信息技術人工智能面向機器學習的數據標注規程
Q/GDW1560.1—2014輸電線路圖像/視頻監控裝置技術規范第1部分:圖像監控裝置
Q/GDW1906—2013輸變電一次設備缺陷分類標準
3術語和定義
下列術語和定義適用于本文件。
3.1
人工智能artificialintelligence
一門交叉學科,通常視為計算機科學的分支,研究表現出與人類智能(如推理和學習)
相關的各種功能的模型和系統。
3.2
自然語言處理naturallanguageprocess
是計算機科學領域與人工智能領域中的一個重要方向,能實現人與計算機之間用自然語
言進行有效通信的各種理論和方法。
1
T/CESXXXXXXX
-
3.3
樣本數據sampledata:[Q/GDW12118.1—2021,定義3.5]
其具備的特征能夠反映總體數據情況的一部分個體數據。
3.4
標注corpusannotation:[Q/GDW1906—2013,定義3.5]
采用人工或計算機自動方式對樣本的屬性或特征進行描述,可用于實用的目的,如客戶
服務或資訊獲取等。
3.5
標簽label:[T/CESA1040—2019定義3.2]
標識數據的特征、類別和屬性等內容,可用于建立數據及深度學習訓練要求所定義的機
器可讀數據編碼間的聯系。
3.6
智能交互intelligentinteraction
智能交互一般指智能語音交互。智能語音交互是基于語音輸入的新一代交互模式,通
過說話就可以得到反饋結果。
3.7
語料corpus
即語言材料,是語言學研究的內容,也是構成語料庫的基本單元。
3.8
語料庫corpora
語料庫指經科學取樣和加工的大規模電子文本庫,其中存放的是在語言的實際使用中真
實出現過的語言材料。
2
T/CESXXXXXXX
-
3.9
意圖intent
用戶表達的句子希望達到某種目的打算。
3.10
槽位slot
在用戶表達意圖的句子中,用來準確表達該意圖的關鍵信息的標識。
3.11
標注工具annotationtool:[T/CESA1040—2019定義3.5]
標注人員執行標注任務生成標注結果的過程中使用的工具和軟件。標注工具按照自動化
程度分手動、半自動和自動三種。
3.12
半自動化標注semi-automaticannotation
基于少量人工標注、機器預標注來訓練標注模型,用于批量標注樣本數據的半人工智能
標注方法。
3.13
特色語種speciallanguage
漢語普通話外的其他語種。
4縮略語
下列縮略語適用于本文件。
BIOES:BIOES標注模式(B-begin,I-inside,O-outside,E-end,S-single)屬于序列標注模
式之一,其中B-begin表示標注元素的開頭,I-inside表示標注元素的中間或結尾,O-outside
表示不屬于待標注內容,E-end表示標注元素的結尾,S-single表示單個字符且本身就是一
個標注元素。
BIO:BIO標注模式(B-begin,I-inside,O-outside)屬于序列標注模式之一,其中B-begin
表示標注元素的開頭,I-inside表示標注元素的中間或結尾,O-outside表示不屬于待標注內
3
T/CESXXXXXXX
-
容。
JSON:JavaScript對象表示法(JavaScriptObjectNotation),是一種輕量級的文本數據交
換格式
5總則
本文件共分為樣本基本要求、樣本標注要求、樣本標注流程三部分,具體內容組織框架
見圖1:
圖1組織框架
6文本類樣本基本要求
6.1文本文件存儲格式要求
文本樣本數據應采用txt、csv、Json、xlsx、xls、xml存儲格式。
6.2文本文件命名要求
文本文件名稱應由四個部分組成:
a)第一部分為項目命名詞或文本來源;
b)第二部分為當前文本文件的專業信息;
c)第三部分為原始源文件生成時的日期,日期格式:YYYY-MM-DD;
4
T/CESXXXXXXX
-
d)第四部分為文件唯一性編號,從1開始計數;
e)這四部分用下劃線連接,且文件名稱長度和擴展名在內最大長度不超過100個字符
(包含中英文字符和特殊字符);
f)文件命名舉例:××項目_酒店預訂語料_2022-06-08_1。
6.3文本類樣本質量要求
文本類樣本質量應滿足下述要求:
a)應支持計算機正常讀取,文本內容無亂碼;
b)內容應滿足相關業務需求;
c)應使用UTF-8編碼。
6.4文本樣本描述文件
每批次文本樣本集應有一個描述文件,應滿足下述要求:
a)存儲格式應為txt格式;
b)命名應由三個部分組成:
1)項目命名詞或樣本來源;
2)本文件創建的日期,日期格式:YYYY-MM-DD;
3)文件唯一性編號,從1開始計數;
4)文件名的各部分用下劃線連接,文件命名示例:××項目_2022-06-08_1。
c)文檔內容應描述本樣本集的基本信息,應包括樣本所屬項目、樣本來源、創建日期、
聯系人、樣本標注信息、標注格式、樣本用途等信息。
7文本類樣本標注要求
7.1基本要求
應滿足標注對象范圍、標注方式、標注文件命名要求。具體要求包括:
a)文本語料樣本標注應支持意圖、槽位等信息的標注;
b)文本語料樣本標注應支持序列標注、指針標注等多種標注方式;
c)標注可通過線上標注(樣本+標注平臺)和線下標注(線下小工具和線下文本txt、csv、
Json)實現;
d)序列標注應采用B、I、E、O、S標簽列表,宜采用BIO、BIOES標簽方案進行標
注;
5
T/CESXXXXXXX
-
f)已完成標注的文本文件應按照規定的命名格式命名。
7.2意圖標注要求
樣本意圖標注應滿足下述要求:
a)樣本標注前應確定意圖類別數和意圖類別名稱;
b)樣本意圖類型的確定需要結合具體的應用場景和待標注樣本數據;
c)若一條樣本可標注為多個意圖類別時,應根據應用場景將該樣本標注為一個可能性最
大的意圖類別,必要時可由多位標注人員共同確定待標注樣本的意圖類別;
d)每條語料樣本都應標注出其意圖類別,若一條語料意圖不屬于已定義的意圖中的任何
一類則可將該語料刪除,或者新增一個意圖類別以將語料樣本中不屬于已定義意圖類別的語
料樣本均歸類于該意圖類別;
e)標注時應做到準確標注意圖類別;
f)應用場景如:新增日程、查詢日程
7.3槽位標注要求
樣本槽位標注應滿足下述要求:
a)樣本標注前應定義槽位的類別數和類別名稱;
b)一條待標注樣本中有可能存在多個槽位,應標出所有的槽位信息;
c)一條樣本中可能不存在槽位信息,應允許槽位信息為空;
d)樣本中的槽位信息可能存在重疊,對存在重疊的槽位信息是否標注以及怎樣標注需
要根據具體情況確定;
e)標注槽位信息要準確、全面;
f)應用場景如:“定一個早上九點在北京評審的日程”,需要標注的槽位信息為:“早上
九點”、“北京”、“評審”,標注結果:“定一個[早上九點](TIME)在[北京](address)[評審](Theme)
的日程”。
7.4標注文件命名與存儲要求
標注文件應由兩部分組成,第一部分與對應標注文本命名一致,第二部分為“-bz”,應
保存為txt等滿足應用需求的格式,具體如:××項目_酒店預訂語料_2022-06-08_1-bz。
6
T/CESXXXXXXX
-
8樣本標注流程
8.1總體要求
樣本標注應包含語料樣本獲取、語料樣本檢查、安全管控、標注工具選擇、語料樣本標
注、標注結果收集和標注結果核查等環節,具體如圖所示:
圖2樣本標注流程
8.2樣本獲取
根據應用場景搜集整理相關語料樣本數據,并按照第6章內容樣本文件進行樣本文件命
名、創建樣本描述文件等操作。
8.3樣本檢查
在樣本標注前應按照本文第6章要求對待標注樣本進行檢查,應根據業務需求和樣本的
數量采用全量檢查或抽樣檢查,方式如下:
a)全量檢查應對指定范圍內的所有樣本進行逐條檢查;
b)抽樣檢查可采用隨機抽樣或分層抽樣,方式如下:
1)隨機抽樣,即:針對不同業務類型的數據樣本采用隨機抽樣進行檢查;
2)分層抽樣,即:針對同一業務類型的樣本數據,根據樣本類型不同采取分層抽
樣的方式進行檢查。
7
T/CESXXXXXXX
-
8.4安全管控
應滿足對標注環境及標注人員的安全管控要求。具體要求包括:
a)標注過程應在內網環境下的指定機器中進行,機器應開啟防火墻,安裝殺毒軟件,
并禁用USB接口功能。機器中的所有數據文件需定期做好數據備份,不得擅自拷貝、傳輸,
防止數據丟失或泄露;
b)標注人員應經過標注工作培訓獲得相關單位資格認證并簽署樣本標注保密協議后才
可上崗操作。
8.5標注工具選擇
應使用標注格式通用、易操作的標注工具進行標注。
8.6語料樣本標注
8.6.1基本要求
應根據業務需求和標注任務難易度選擇人工標注或半自動化標注。
8.6.2人工標注
人工標注任務應按照試標注、批量標注順序執行,具體要求如下:
a)試標注:
1)從標注任務的待標注樣本中抽取試標注樣本。可采用隨機抽樣或分層抽樣方法
抽取樣本,抽取比例不宜低于待標注樣本總量的1%;
2)標注人員對抽取樣本進行標注;
3)標注項目負責人對標注結果進行確認;
4)標注人員重復執行標注錯誤的標注任務,直至標注項目負責人確認無誤。
b)標注人員批量執行標注任務。
8.6.3.半自動化標注
半自動標注任務應按照樣本構建、模型構建、模型批量標注順序執行,具體要求如下:
a)樣本構建:
8
T/CESXXXXXXX
-
1)從待標注樣本中抽取訓練樣本和測試樣本。可采用隨機抽樣或分層抽樣方法抽取樣
本,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學校法務室管理制度
- 學校綜治室管理制度
- 學校階梯室管理制度
- 學生放下學管理制度
- 學食堂就餐管理制度
- 安全檢保衛管理制度
- 安徽美容店管理制度
- 安置房銷售管理制度
- 完善運行部管理制度
- 客戶車調度管理制度
- 魯班面試試題及答案
- T-CESA 1281-2023 制造業企業質量管理能力評估規范
- DBJ33∕T 1104-2022 建設工程監理工作標準
- 消防工程項目的質量安全保障措施
- 網絡運維基礎知識
- DB2305T 047-2025蒙古櫟播種育苗造林技術規程
- GB/Z 44938.2-2024機械電氣安全第2部分:保護人員安全的傳感器的應用示例
- 物流公司法人代表個人簡介范文
- 2025屆河北省衡水市故城縣重點中學中考生物五模試卷含解析
- 廣東肇慶航空職業學院《機器人傳感器及其信息融合技術》2023-2024學年第一學期期末試卷
- 外科護理隊伍發展方向
評論
0/150
提交評論