CESA -2020-4-022 人工智能芯片應用 面向漢盲翻譯系統的技術 征求意見稿_第1頁
CESA -2020-4-022 人工智能芯片應用 面向漢盲翻譯系統的技術 征求意見稿_第2頁
CESA -2020-4-022 人工智能芯片應用 面向漢盲翻譯系統的技術 征求意見稿_第3頁
CESA -2020-4-022 人工智能芯片應用 面向漢盲翻譯系統的技術 征求意見稿_第4頁
CESA -2020-4-022 人工智能芯片應用 面向漢盲翻譯系統的技術 征求意見稿_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS035.240

CCSL70

團體標準

T/CESAXXXX—202X

人工智能芯片應用面向漢盲翻譯系統的

技術要求

Applicationofartificialintelligencechip-Technicalrequirementstosystemof

Chinese-Brailletranslation

征求意見稿

在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。

已授權的專利證明材料為專利證書復印件或扉頁,已公開但尚未授權的專利申

請證明材料為專利公開通知書復印件或扉頁,未公開的專利申請的證明材料為專利

申請號和申請日期。

202X-XX-XX發布202X-XX-XX實施

中國電子工業標準化技術協會發布

T/CESAXXXX—202X

前??言

本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起

草。

本文件由中國科學院計算技術研究所提出。

本文件由中國電子工業標準化技術協會歸口。

本文件起草單位:中國科學院計算技術研究所,中國盲文出版社,中科寒武紀科技股份有限公司,

浙江大學等。

本文件主要起草人:。

III

T/CESAXXXX—202X

人工智能芯片應用面向漢盲翻譯系統的技術要求

1范圍

本標準規定了在人工智能芯片應用方面,面向漢盲翻譯系統的技術要求及規范,重點規定了輸入/

輸出、服務接口、功能模塊設置、性能指標等方面的要求。

本文件適用于在智能芯片上進行漢盲翻譯系統的部署、檢驗及應用。

2規范性引用文件

下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T38640-2020盲用數字出版格式

3術語和定義

下列術語和定義適用于本文件。

3.1

機器學習Machinelearning

一種程序或系統,用于根據輸入數據構建(訓練)預測模型。這種系統會利用學到的模型根據從分

布(訓練該模型時使用的同一分布)中提取的新數據(以前從未見過的數據)進行實用的預測。機器學

習還指與這些程序或系統相關的研究領域。

3.2

深度學習DeepLearning

機器學習中一種基于對數據進行表征學習的方法,通過組合低層特征形成更加抽象的高層表示屬性

類別或特征,以發現數據的分布式特征表示。

3.3

電子盲文ElectronicBraille

以數字形式存儲的盲文內容。

1

T/CESAXXXX—202X

4總體功能

4.1核心功能

漢盲翻譯系統的功能為將輸入的漢字文本翻譯為對應的漢語盲文文本,基于智能芯片的漢盲翻譯系

統可更為高效、充分地采用人工智能和機器學習技術,實現高效、高準確率的漢盲翻譯。

雖然漢盲翻譯系統也可集成相應的界面與用戶進行交互(這種情況下,用戶可在交互界面輸入漢字

文本、發出翻譯指令,系統在界面上顯示盲文輸出),但漢盲翻譯當前主要以界面和功能分離的方式進

行,即一個核心的漢盲翻譯系統只負責進行漢字文本到盲文文本的翻譯轉換,用于為文本閱讀器、文本

編輯軟件、網頁瀏覽器等上層應用系統提供漢盲翻譯服務,而與上層應用系統或交互界面分離。因此,

本標準只規范基于智能芯片的漢盲翻譯系統的文本翻譯方面的核心功能,重點明確在輸入/輸出、服務

接口、功能模塊設置、性能指標等方面的要求,而不涉及用戶交互方式與交互界面方面的要求。

4.2盲文標準

當前有3種漢語盲文標準,分別為現行盲文、雙拼盲文和通用盲文,基于智能芯片的漢盲翻譯系統

應至少支持現行盲文或通用盲文。

4.3輸入輸出形式

以輸入和輸出的形式來劃分,基于智能芯片的漢盲翻譯系統可以兩種方式提供漢盲翻譯服務:文件

翻譯和字符串翻譯。

文件翻譯是指輸入一個漢字文本文件,返回一個與之相應的盲文文本文件。

字符串翻譯是指輸入一個漢字文本字符串,返回一個與之相應的盲文字符串。

4.4服務方式及接口

以提供服務的方式和接口來劃分,基于智能芯片的漢盲翻譯系統可以兩種方式提供漢盲翻譯服務:

網絡服務和本地服務。

網絡服務是指基于網絡通信接口提供服務。

本地服務是指基于本機的進程/線程/模塊間的通信接口提供服務。

5輸入和輸出

5.1文件翻譯

5.1.1輸入文件

輸入的文件應支持常用的文本文件格式中的至少一種,包括:txt格式、word格式(doc或docx)、

pdf格式。

對于包含格式和非文本內容的文件格式,如word格式和pdf格式,應至少可提取其中的所有標題和

正文文本作為翻譯的輸出。

2

T/CESAXXXX—202X

根據需要,輸入文件中的文本應包含所需的非漢字字符,如標點符號、英文字母、阿拉伯數字符號

及其它可能用到的符號,而非只由漢字字符構成。

5.1.2輸出文件

輸出的文件應符合國家標準《盲用數字出版格式GB/T38640-2020》中盲用文本出版格式的要求。

可采用標準中定義的XML格式,DBO格式或其它符合標準的格式。

5.2字符串翻譯

5.2.1輸入字符串

輸入字符串應采用UTF-8編碼。一般為一個漢語句子。字符數不超過128。

根據需要,輸入字符串應包含所需的非漢字字符,如標點符號、英文字母、阿拉伯數字符號及其它

可能用到的符號,而非只由漢字字符構成。

5.2.2輸出字符串

輸出字符串應支持常用的盲文編碼,包括Unicode編碼和ASCII編碼。應支持包括Unicode編碼和

ASCII編碼中的至少一種。

6服務接口

6.1網絡服務

網絡服務采用網絡服務接口,可基于socket接口或http服務。

6.2本地服務

本地服務除可采用運行于本地的網絡接口外,也可采用本地接口。如作為SDK,以函數形式提供接

口服務。

6.3服務接口

6.3.1任務創建接口

調用此接口創建翻譯任務,并在漢盲翻譯服務器或本地進行翻譯。

輸入參數:輸入文件或字符串、翻譯目標(1:現行盲文;2:通用盲文;3、雙拼盲文)、是否對

照翻譯(true:對照翻譯;false:非對照翻譯)

輸出參數:翻譯任務標識符(任務ID)

6.3.2任務狀態查詢接口

3

T/CESAXXXX—202X

調用此接口查詢翻譯任務狀態。

輸入參數:翻譯任務ID。

輸出參數:任務狀態(Y:轉換完成;N:任務尚未開始;W:任務正在執行)、任務執行百分比(0-100)。

6.3.3翻譯結果獲取接口

調用此接口獲取翻譯結果。

輸入參數:翻譯任務ID。

輸出參數:結果文件或字符串。

6.3.4翻譯任務取消接口

調用此任務取消翻譯任務。

輸入參數:翻譯任務ID。

輸出參數:取消是否成功(true:成功,false:失敗)。

7功能模塊

7.1模塊劃分

基于智能芯片的漢盲翻譯系統,應將機器學習模型與程序獨立。

基于智能芯片的漢盲翻譯系統,應至少劃分為機器學習模型加載模塊和翻譯模塊。機器學習模型加

載模塊負責一次性將外部存儲(硬盤)中的機器學習模型文件加載至內存;翻譯模塊負責使用加載的機

器學習模型執行翻譯任務。在模型加載后,執行每次翻譯任務時無需再次加載模型。

7.2模塊劃分

采用智能芯片時,機器學習模塊應盡可能采用智能芯片運算。模型應盡可能加載至智能芯片。

8性能指標

8.1翻譯準確率指標

自動翻譯完成后,將翻譯結果與標準答案進行比對。當翻譯結果中的某個盲文詞,當在不考慮標調

的情況下,該盲文詞與答案中對應的盲文詞一致時,認為該盲文詞分詞正確;當該盲文與答案中對應的

盲文詞完全一致時,認為該盲文詞分詞與標調都正確。按下面的兩個式子計算分詞準確率和帶調盲文準

確率。

分詞準確率=分詞正確的盲文詞數/標準答案中盲文詞總數

帶調盲文準確率=分詞和標調都正確的盲文詞數/標準答案中盲文詞總數

8.2時間效率指標

翻譯時間:從開始翻譯到結束翻譯的時間。

4

T/CESAXXXX—202X

響應時間:從接收到翻譯任務到返回結果的時間。

平均每秒翻譯次數:平均每秒翻譯的字數。

5

T/CESAXXXX—202X

參考文獻

[1]GB/T5271.31-2006信息技術詞匯第31部分:人工智能機器學習

[2]GB/T5271.34-2006信息技術詞匯第34部分:人工智能神經網絡

[3]20190851-T-469信息技術人工智能術語

[4]T/CESA1026-2018人工智能深度學習算法評估規范

6

T/CESAXXXX—202X

目??次

前??言.............................................................................................................................................................III

1范圍...................................................................................................................................................................1

2規范性引用文件...............................................................................................................................................1

3術語和定義.......................................................................................................................................................1

4總體功能...........................................................................................................................................................2

5輸入和輸出.......................................................................................................................................................2

6服務接口...........................................................................................................................................................3

7功能模塊...........................................................................................................................................................4

8性能指標...........................................................................................................................................................4

參考文獻.............................................................................................................................................................7

II

T/CESAXXXX—202X

人工智能芯片應用面向漢盲翻譯系統的技術要求

1范圍

本標準規定了在人工智能芯片應用方面,面向漢盲翻譯系統的技術要求及規范,重點規定了輸入/

輸出、服務接口、功能模塊設置、性能指標等方面的要求。

本文件適用于在智能芯片上進行漢盲翻譯系統的部署、檢驗及應用。

2規范性引用文件

下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T38640-2020盲用數字出版格式

3術語和定義

下列術語和定義適用于本文件。

3.1

機器學習Machinelearning

一種程序或系統,用于根據輸入數據構建(訓練)預測模型。這種系統會利用學到的模型根據從分

布(訓練該模型時使用的同一分布)中提取的新數據(以前從未見過的數據)進行實用的預測。機器學

習還指與這些程序或系統相關的研究領域。

3.2

深度學習DeepLearning

機器學習中一種基于對數據進行表征學習的方法,通過組合低層特征形成更加抽象的高層表示屬性

類別或特征,以發現數據的分布式特征表示。

3.3

電子盲文ElectronicBraille

以數字形式存儲的盲文內容。

1

T/CESAXXXX—202X

4總體功能

4.1核心功能

漢盲翻譯系統的功能為將輸入的漢字文本翻譯為對應的漢語盲文文本,基于智能芯片的漢盲翻譯系

統可更為高效、充分地采用人工智能和機器學習技術,實現高效、高準確率的漢盲翻譯。

雖然漢盲翻譯系統也可集成相應的界面與用戶進行交互(這種情況下,用戶可在交互界面輸入漢字

文本、發出翻譯指令,系統在界面上顯示盲文輸出),但漢盲翻譯當前主要以界面和功能分離的方式進

行,即一個核心的漢盲翻譯系統只負責進行漢字文本到盲文文本的翻譯轉換,用于為文本閱讀器、文本

編輯軟件、網頁瀏覽器等上層應用系統提供漢盲翻譯服務,而與上層應用系統或交互界面分離。因此,

本標準只規范基于智能芯片的漢盲翻譯系統的文本翻譯方面的核心功能,重點明確在輸入/輸出、服務

接口、功能模塊設置、性能指標等方面的要求,而不涉及用戶交互方式與交互界面方面的要求。

4.2盲文標準

當前有3種漢語盲文標準,分別為現行盲文、雙拼盲文和通用盲文,基于智能芯片的漢盲翻譯系統

應至少支持現行盲文或通用盲文。

4.3輸入輸出形式

以輸入和輸出的形式來劃分,基于智能芯片的漢盲翻譯系統可以兩種方式提供漢盲翻譯服務:文件

翻譯和字符串翻譯。

文件翻譯是指輸入一個漢字文本文件,返回一個與之相應的盲文文本文件。

字符串翻譯是指輸入一個漢字文本字符串,返回一個與之相應的盲文字符串。

4.4服務方式及接口

以提供服務的方式和接口來劃分,基于智能芯片的漢盲翻譯系統可以兩種方式提供漢盲翻譯服務:

網絡服務和本地服務。

網絡服務是指基于網絡通信接口提供服務。

本地服務是指基于本機的進程/線程/模塊間的通信接口提供服務。

5輸入和輸出

5.1文件翻譯

5.1.1輸入文件

輸入的文件應支持常用的文本文件格式中的至少一種,包括:txt格式、word格式(doc或docx)、

pdf格式。

對于包含格式和非文本內容的文件格式,如word格式和pdf格式,應至少可提取其中的所有標題和

正文文本作為翻譯的輸出。

2

T/CESAXXXX—202X

根據需要,輸入文件中的文本應包含所需的非漢字字符,如標點符號、英文字母、阿拉伯數字符號

及其它可能用到的符號,而非只由漢字字符構成。

5.1.2輸出文件

輸出的文件應符合國家標準《盲用數字出版格式GB/T38640-2020》中盲用文本出版格式的要求。

可采用標準中定義的XML格式,DBO格式或其它符合標準的格式。

5.2字符串翻譯

5.2.1輸入字符串

輸入字符串應采用UTF-8編碼。一般為一個漢語句子。字符數不超過128。

根據需要,輸入字符串應包含所需的非漢字字符,如標點符號、英文字母、阿拉伯數字符號及其它

可能用到的符號,而非只由漢字字符構成。

5.2.2輸出字符串

輸出字符串應支持常用的盲文編碼,包括Unicode編碼和ASCII編碼。應支持包括Unicode編碼和

ASCII編碼中的至少一種。

6服務接口

6.1網絡服務

網絡服務采用網絡服務接口,可基于socket接口或http服務。

6.2本地服務

本地服務除可采用運行于本地的網絡接口外,也可采用本地接口。如作為SDK,以函數形式提供接

口服務。

6.3服務接口

6.3.1任務創建接口

調用此接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論