CESA-2021-3-018《信息技術 人工智能 深度學習框架多硬件平臺適配技術要求與評價指標》團體標準(征求意見稿)_第1頁
CESA-2021-3-018《信息技術 人工智能 深度學習框架多硬件平臺適配技術要求與評價指標》團體標準(征求意見稿)_第2頁
CESA-2021-3-018《信息技術 人工智能 深度學習框架多硬件平臺適配技術要求與評價指標》團體標準(征求意見稿)_第3頁
CESA-2021-3-018《信息技術 人工智能 深度學習框架多硬件平臺適配技術要求與評價指標》團體標準(征求意見稿)_第4頁
CESA-2021-3-018《信息技術 人工智能 深度學習框架多硬件平臺適配技術要求與評價指標》團體標準(征求意見稿)_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.200

CCSL70

團體標準

T/CESAXXXX—202X

信息技術人工智能

深度學習框架多硬件平臺適配

技術要求與評價指標

InformationTechnology-ArtificialIntelligence-TechnicalRequirements

andEvaluationBenchmarksforDeepLearningFrameworkAdaptationto

MultipleHardwarePlatforms

(征求意見稿)

在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。

已授權的專利證明材料為專利證書復印件或扉頁,已公開但尚未授權的專利申請證

明材料為專利公開通知書復印件或扉頁,未公開的專利申請的證明材料為專利申請

號和申請日期

202X-XX-XX發布202X-XX-XX實施

中國電子工業標準化技術協會發布

T/CESAXXXX-202X

前??言

本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起

草。

本文件由中國電子技術標準化研究院提出。

本文件由中國電子技術標準化研究院、中國電子工業標準化技術協會歸口。

本文件起草單位:。

本文件主要起草人:。

III

T/CESAXXXX-202X

人工智能深度學習框架多硬件平臺適配技術要求與評價指標

1范圍

本文件面向深度學習框架定義了適配多硬件平臺的技術要求與評價指標,為建立人工智能軟硬件協

同能力提供技術與評價依據。

本文件適用于支持訓練和推理功能的深度學習框架,可用于深度學習框架硬件適配能力的評估,指

導人工智能軟硬件適配評測平臺建設。

2規范性引用文件

下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

YD/T3944-2021人工智能芯片基準測試評估方法

3術語和定義

下列術語和定義適用于本文件。

3.1深度學習deeplearning

機器學習中一種基于對數據進行表征學習的方法,通過組合低層特征形成更加抽象的高層表示屬性

類別或特征,以發現數據的分布式特征表示。

[來源:YD/T3944-2021,3.1.2]

3.2深度學習框架deeplearningframework

一種利用預先構建和優化好的組件集合定義模型,實現對人工智能算法封裝、數據調用以及計算資

源使用的工具。

3.3多硬件平臺適配multiplehardwareplatformsadaptation

深度學習框架可同時支持除CPU、GPU以外的多種異構硬件作為計算資源完成深度學習模型訓練與

推理任務的能力。

3.4計算圖computationalgraph

一種由節點和邊構成的,表示計算流的圖,張量和算子屬于圖中的對象,其基本塊是有向無環的。

計算圖節點包括變量和函數,變量節點通過邊相連作為函數節點的輸入與輸出。

3.5整圖graph

用于描述某個深度學習特定任務的計算過程,由一系列算子和張量組成的完整的計算圖。

1

T/CESAXXXX-202X

3.6子圖subgraph

將全圖依據某種規則抽取為多個特定部分,每個部分都被稱為一個子圖,包含一個或多個算子和張

量。子圖的抽取規則一般依據硬件支持能力而定,子圖的輸入節點必須是支持無輸入的算子。

3.7圖引擎graphengine

硬件平臺SDK中執行計算圖的訓練或推理引擎,支持通過GraphAPI進行計算圖構建與執行。

3.8張量tensor

多維數組,數組中的每個元素稱為張量的元素,在深度學習中特指計算圖中用于存儲計算結果的一

個變量節點。

3.9算子operator

數據到數據的操作、映射、運算或函數,在深度學習領域特指計算圖中的一個函數節點,一個在張

量上執行的計算操作,它接受零或多個張量作為輸入,得到零或多個張量作為輸出。

3.10算子注冊接口operatorregistrationinterface

向深度學習框架提交算子信息以實現新增算子的接口,提交的內容可包括算子名、輸入、輸出、屬

性等信息。

3.11AI加速器artificialintelligenceaccelerator

一類專用于人工智能硬件加速的微處理器或計算系統,通常由專用AI芯片制成,在通用或特定人工

智能領域上較通用GPU可達到或發揮更好的性能優勢。

3.12內核函數computeKernel

一類在計算中運行在AI加速器上的執行單元,與主程序分開。需通過AI加速器提供的接口進行調

用,或者通過AI加速器支持的單獨的編程語言直接嵌入高級語言的應用程序代碼。

3.13神經網絡編譯器NeuralNetworkCompiler

一類提供自動算子生成,接收來自不同框架的計算圖模型結構,并支持計算圖中間結構轉化、自動

生成深度學習硬件可執行指令的編譯器。

3.14中間表示IntermediateRepresentation

神經網絡編譯器的中間表示結構。

注:通常分為高層中間表示和低層中間表示,可作為神經網絡編譯器的輸入。

4縮略語

下列縮略語適用于本文件。

AI:人工智能(ArtificialIntelligence)

ASIC:專用集成電路(ApplicationSpecificIntegratedCircuit)

CPU:中央處理器(CentralProcessingUnit)

DNN:深度神經網絡(DeepNeuralNetwork)

2

T/CESAXXXX-202X

GPU:圖形處理器(GraphicProcessingUnit)

GAN:生成式對抗網絡(GenerativeAdversarialNetworks)

TPU:張量處理器(TensorProcessingUnit)

NPU:神經網絡處理器(Neural-networkProcessingUnit)

NLP:自然語言處理(NaturalLanguageProcessing)

SKD:軟件開發工具包(SoftwareDevelopmentKit)

5總體架構與環境要求

5.1深度學習框架基礎軟硬件平臺總體架構

深度學習框架多硬件平臺適配包括:訓練框架和推理框架適配不同組合的操作系統、訓練芯片和推

理芯片,深度學習框架與硬件平臺的兼容適配及優化等關鍵技術。深度學習框架多硬件平臺適配總體架

構見圖1:

a)適配評價指標:安裝部署、模型支持與驗證、訓練或推理性能、易用性、穩定性、壓力測試與

大規模分布式測試等。

b)適配技術要求:分布式通信層接入接口(僅面向訓練框架)、設備管理層接入接口與算子適配

層接入接口要求。

c)硬件平臺環境:本文件不對硬件平臺進行技術要求定義,僅規范框架適配硬件平臺的環境要求。

圖1.深度學習框架多硬件平臺適配總體架構

5.2訓練框架與硬件平臺適配環境要求

訓練框架環境要求包括:

a)學習框架:應具備基礎單卡、多卡與多機的模型訓練功能;

b)版本要求:深度學習框架與硬件AI加速庫版本應是尚在維護中的版本,并需支持最新穩定版。

訓練框架適配的硬件平臺環境要求包括:

a)操作系統:應支持基于Linux內核的操作系統;

b)芯片類型:應在通用CPU和GPU之外支持至少一種AI訓練芯片;

c)設備識別:硬件驅動應支持選定操作系統的安裝/卸載,設備可正確識別,宜支持容器映射;

3

T/CESAXXXX-202X

d)分析監控:硬件宜提供設備的狀態監控工具與性能分析工具,用于檢測設備健康狀態。

5.3推理框架與硬件平臺適配環境要求

云側推理框架與硬件平臺適配環境要求應符合本文件5.2章節的規定。

端側推理框架環境要求應符合本文件5.2章節“訓練框架環境要求”的規定。

端側推理框架所適配的硬件平臺環境要求包括:

a)操作系統:宜支持常用智能終端操作系統、嵌入式操作系統等;

b)芯片類型:應在通用CPU和GPU之外支持至少一種專用AI推理芯片;

c)設備識別:硬件驅動應支持選定操作系統的安裝/卸載,設備可正確識別,宜支持容器映射;

d)分析監控:硬件宜提供設備的狀態監控工具和性能分析工具,用于檢測設備健康狀態。

6深度學習框架多硬件平臺適配技術要求

本文件面向深度學習訓練及推理框架,規范多硬件平臺適配接口技術要求,包括設備管理層、算子

適配層接口與分布式通信層接口,見圖2。

圖2.深度學習框架多硬件平臺適配接口

a)設備管理層接口:如圖2接口a(訓練側定義見6.1.1,推理側定義見6.2.1),對硬件平臺驅動與

運行時的接入接口進行抽象與封裝,并向算子適配層、訓練與推理框架提供一致的設備管理層

接口,包括設備管理接口、內存管理接口、執行流管理接口和事件管理接口,允許各硬件自行

實現相應設備管理接口接入框架。

b)算子適配層接口:即深度學習框架算子與目標硬件算子內核函數的映射與匹配,針對不同硬件

類型規范不同的適配接口。算子層適配接口應提供算子開發或映射、子圖或整圖接入2種適配

接口,宜提供編譯器后端接入適配接口。硬件平臺可根據環境類型的不同,選擇不同的適配接

口。

1)算子開發或映射:如圖2接口b(訓練側定義見,推理側定義見),若硬件支

持可編程算子內核開發語言,或硬件具備對應的AI算子庫,則可以選擇該方式接入;

2)圖引擎接入:如圖2接口c(訓練側定義見,推理側定義見),若硬件支持圖

引擎,則可以選擇該方式進行子圖或整圖接入;

4

T/CESAXXXX-202X

3)編譯器后端接入:如圖2接口d(訓練側定義見,推理側定義見),若硬件支

持編譯器后端,或硬件支持代碼生成器,則可以選擇該方式進行神經網絡編譯器的算子接

入。

c)分布式通信層接口:如圖2接口e(訓練側定義見6.1.3),對硬件平臺的集合通信庫接入框架的

接口進行封裝與抽象,為上層的訓練框架提供一致的分布式通信層接口,允許硬件自行實現相

應接口接入框架。推理框架無需實現分布式通信接口。

6.1訓練多硬件平臺適配技術要求

6.1.1設備管理層接口

深度學習框架應提供設備管理層接口供硬件平臺的驅動和運行時接入,使硬件可被框架識別為可分

配管理的計算資源進行模型訓練。設備管理層接口包括設備管理接口、內存管理接口、執行流管理接口

和事件管理接口,允許各硬件自行實現相應設備管理接口接入框架。

設備管理接口

設備管理接口提供硬件設備的創建、銷毀、申請和釋放等接口,見表1。

表1設備管理接口

接口中文名稱接口英文名稱是否必選接口說明

獲取驅動版本號get_driver_version是獲取驅動版本號

獲取運行時版本號get_runtime_version是獲取運行時版本號

獲取設備算力get_compute_capability是獲取設備算力

設置當前使用設備set_device是后續任務執行在該設備上

獲取當前使用設備get_device是獲取當前使用的硬件設備

同步設備synchronize_device是等待指定設備上所有任務完成

獲取可用設備數量get_device_count是獲取當前可用設備數量

獲取可用設備列表get_device_list是獲取當前可用設備號列表

初始化硬件initialize否初始化硬件后端

去初始化硬件finalize否去初始化硬件后端

初始化設備init_device否初始化指定硬件設備

去初始化設備deinit_device否去初始化指定硬件設備

內存管理接口

內存管理接口提供設備內存和主機內存的申請、釋放、拷貝、查詢等接口,見表2。

表2內存管理接口

接口中文名稱接口英文名稱是否必選接口說明

申請設備內存device_memory_allocate是申請設備內存

5

T/CESAXXXX-202X

釋放設備內存device_memory_deallocate是釋放設備內存

申請主機鎖頁內存host_memory_allocate否申請主機鎖頁內存

釋放主機鎖頁內存host_memory_deallocate否釋放主機鎖頁內存

申請統一地址內存unified_memory_allocate否申請統一地址內存

釋放統一地址內存unified_memory_deallocate否釋放統一地址內存

主機到設備同步內存拷貝memory_copy_h2d是主機到設備同步內存拷貝

設備到主機同步內存拷貝memory_copy_d2h是設備到主機同步內存拷貝

設備內同步內存拷貝memory_copy_d2d是設備內同步內存拷貝

設備間同步內存拷貝memory_copy_p2p是設備間同步內存拷貝

主機到設備異步內存拷貝async_memory_copy_h2d否主機到設備異步內存拷貝

設備到主機異步內存拷貝async_memory_copy_d2h否設備到主機異步內存拷貝

設備內異步內存拷貝async_memory_copy_d2d否設備內異步內存拷貝

設備間異步內存拷貝async_memory_copy_p2p否設備間異步內存拷貝

設備內存填充device_memory_set否使用值填充某塊設備內存

查詢設備內存狀態device_memory_stats是設備內存使用情況查詢

獲取設備內存最小塊大小device_min_chunk_size是獲取設備內存最小塊大小

獲取設備內存最大塊大小device_max_chunk_size否獲取設備內存最大塊大小

設備最多可分配內存大小device_max_alloc_size否設備最多可分配內存大小

分配設備內存的填充字節device_extra_padding_size否分配設備內存的填充字節

設備初始分配的內存大小device_init_alloc_size否設備初始分配的內存大小

設備重分配的內存大小device_realloc_size否設備重分配的內存大小

執行流管理接口

執行流管理接口提供設備執行流創建、銷毀、查詢和阻塞等接口,見表3。

表3執行流管理接口

接口中文名稱接口英文名稱是否必選接口說明

創建設備執行流create_stream是創建設備執行流

銷毀設備執行流destroy_stream是銷毀設備執行流

查詢設備執行流狀態query_stream否查詢設備執行流狀態

同步設備執行流synchronize_stream是等待執行流所有任務完成

添加主機回調函數stream_add_callback否添加主機回調函數

等待執行流某個事件完成stream_wait_event是等待執行流某個事件完成

6

T/CESAXXXX-202X

事件管理接口

事件管理接口提供設備事件對象的創建、銷毀、記錄和同步等接口,見表4。

表4事件管理接口

接口中文名稱接口英文名稱是否必選接口說明

創建設備事件對象create_event是創建設備事件對象

銷毀設備事件對象destroy_event是銷毀設備事件對象

設備執行流上記錄事件record_event是設備執行流上記錄某事件

查詢事件是否完成query_event否查詢該設備事件是否完成

同步設備事件synchronize_event是阻塞直到該設備事件完成

6.1.2算子適配層接口

算子開發或映射接口

深度學習框架應提供硬件算子的內核函數注冊接口,供目標硬件進行內核函數或DNN算子庫的接

入,見表5。

表5硬件算子注冊接口

項目內容

接口中文名稱算子內核函數注冊

接口英文名稱REGISTER_KERNEL

接口功能說明注冊框架算子的內核函數

接口輸入參數見表6

接口輸出參數無(void)

硬件算子注冊接口所需的輸入參數見表6。

表6硬件算子注冊接口輸入參數

參數名稱輸入/輸出類型數據類型是否必選參數說明

算子名稱輸入參數字符串是框架算子名稱

硬件名稱輸入參數字符串是硬件后端名稱

布局類型輸入參數枚舉否輸入張量的數據布局類型

內核函數輸入參數函數是硬件算子內核函數

數據類型輸入參數枚舉是算子支持的輸入張量的數據類型

圖引擎接入接口

深度學習框架應提供整圖或子圖組網信息與定義,由硬件平臺的圖引擎自行接管計算圖的組網與執

行并返回計算結果。

a)框架應提供計算圖構建接口,見表7。

表7硬件計算圖構建接口

7

T/CESAXXXX-202X

項目內容

接口中文名稱硬件計算圖構建

接口英文名稱GraphBuilder

接口功能說明根據框架計算圖,構建硬件圖引擎的可執行對象

接口輸入參數見表8

接口輸出參數見表8

其中硬件計算圖構建接口所需的輸入參數見表8。

表8硬件計算圖構建接口輸入參數

參數名稱輸入/輸出類型數據類型是否必選參數說明

框架計算圖輸入參數框架計算圖是框架計算圖對象,見附錄C

輸入張量名稱輸入參數張量列表是計算圖所有輸入張量名稱列表

輸出張量名稱輸入參數張量列表是計算圖所有輸出張量名稱列表

硬件計算圖輸出參數硬件計算圖是硬件計算圖對象,見附錄C

b)框架應提供硬件計算圖執行接口,見表9。

表9硬件計算圖執行接口

項目內容

接口中文名稱硬件計算圖執行

接口英文名稱GraphExecute

接口功能說明硬件圖引擎接管計算圖并執行

接口輸入參數見表10

接口輸出參數見表10

其中硬件圖引擎編譯接口所需的輸入輸出見表10。

表10硬件圖引擎編譯接口輸入參數

參數名稱輸入/輸出類型數據類型是否必選參數說明

硬件計算圖輸入參數硬件計算圖是硬件計算圖對象,見附錄C

輸入張量列表輸入參數張量列表是計算圖所有輸入張量列表

輸出張量列表輸出參數張量列表是計算圖所有輸出張量列表

編譯器后端接入接口

深度學習框架訓練側宜提供編譯器后端接入接口規范。硬件廠商為其硬件提供編譯器后端,通過編

譯器將框架側的計算圖模型根據特定硬件目標產生編譯器端的低級IR,然后根據硬件后端再轉化為某個

具體硬件上的可執行代碼。

若深度學習框架支持神經網絡編譯器后端接入,則訓練框架應提供框架計算圖轉化為編譯器高層中

間表示(High-levelIR)接口,見表11。

8

T/CESAXXXX-202X

表11框架計算圖轉化編譯器高層中間表示的接口

項目內容

接口中文名稱編譯器高層中間表示構建

接口英文名稱HighLevelIRBuild

接口功能說明根據框架計算圖,構建編譯器高層中間表示

接口輸入參數見表12

接口輸出參數見表12

其中框架計算圖轉化編譯器高層中間表示的接口所需的輸入參數見表12。

表12硬件圖引擎編譯接口參數

參數名稱輸入/輸出類型數據類型是否必選參數說明

框架計算圖輸入參數框架計算圖是框架計算圖對象,見附錄C

高層中間表示輸出參數高層中間表示是神經網絡編譯器高層中間表示

6.1.3分布式通信層接口

深度學習訓練框架應提供分布式通信層接口供硬件平臺的集合通信庫接入,支持框架大規模分布式

訓練功能,分布式通信層接口定義見表13。

表13分布式通信層接口

接口中文名稱接口英文名稱是否必選接口說明

生成通信ID編號ccl_get_unique_id是生成通信ID編號

生成集合通信對象ccl_common_init_rank是生成集合通信對象

銷毀集合通信對象ccl_comm_destroy是銷毀集合通信對象

全量聚合累加通信ccl_all_reduce是全量聚合累加通信

廣播通信ccl_broadcast是廣播通信

累加通信ccl_reduce是累加通信

聚合通信ccl_all_gather是聚合通信

累加分發通信ccl_reduce_scatter是累加分發通信

通信組合起始ccl_group_start否通信組合起始

通信組合結束ccl_group_end否通信組合結束

點對點發送ccl_send否點對點發送

點對點接收ccl_recv否點對點接收

獲取集合通信版本ccl_get_version否獲取集合通信版本

9

T/CESAXXXX-202X

6.2推理多硬件平臺適配技術要求

6.2.1設備管理層接口

推理側設備管理層接口應符合本文件6.1.1章節的規定。

6.2.2算子適配層接口

算子開發或映射接口

推理側算子開發或映射接口應符合本文件章節的規定。

圖引擎接入接口

深度學習框架應提供子圖檢測和融合的能力,運行時將檢測到的子圖原始算子通過下發子圖的方式,

供硬件接管,硬件負責相關算子的調度和執行,并向框架返回輸出結果,包括子圖檢測、融合和執行接

口、提供硬件通用適配層接口。

a)子圖檢測、融合和執行接口:包括子圖檢測接口、子圖編譯執行接口。

1)子圖檢測接口:根據硬件支持的算子,提供將全圖切分、融合生成若干子圖的接口,包括

檢測符合條件的所有子圖、將符合條件的子圖進行融合接口,定義見表14與表15。

表14檢測符合條件的所有子圖

參數輸入/輸出類型是否必選參數說明

Lambda表達式或IR輸入參數是符合要檢測子圖的模式

描述文件

表15將符合條件的子圖進行融合

參數輸入/輸出類型是否必選參數說明

子圖表示列表輸入參數是子圖檢測得到的子圖表示列表

子圖OP類型輸入參數是要替換子圖表示列表的子圖OP類型

2)子圖編譯、執行接口:將各個子圖按照執行順序下發至硬件通用適配層,包括編譯模型生

成硬件代碼、執行模型接口,定義分別見表16與表17。

表16編譯模型生成硬件代碼

參數輸入/輸出類型是否必選參數說明

模型輸入參數是需要在硬件上執行的模型

表17執行模型

參數輸入/輸出類型是否必選參數說明

輸入Tensor輸入參數是模型的輸入數據

輸出Tensor輸出參數是模型的輸出數據

b)硬件通用適配層接口:執行子圖轉硬件Graph、模型生成和執行、輸入和輸出內存管理操作。

包括設備管理接口、模型生成接口、模型執行接口。

10

T/CESAXXXX-202X

1)設備管理接口:進行設備基本信息的注冊、參數配置和context管理,包括獲取硬件設備、

釋放設備句柄、創建設備上下文、銷毀設備上下文接口,定義分別見表18、表19、表20

與表21。

表18獲取硬件設備

參數輸入/輸出類型是否必選參數說明

設備名稱輸入參數是需要獲取的硬件設備名稱

設備句柄輸出參數是獲取的設備句柄

表19釋放設備句柄

參數輸入/輸出類型是否必選參數說明

設備句柄輸入參數是需要釋放的設備句柄

表20創建設備上下文

參數輸入/輸出類型是否必選參數說明

設備列表輸入參數是需要創建上下文的設備列表

設備上下文列表輸出參數是創建得到的設備上下文列表

表21銷毀設備上下文

參數輸入/輸出類型是否必選參數說明

設備上下文輸入參數是需要銷毀的設備上下文

2)模型生成接口:完成子圖轉硬件Graph(算子轉硬件IR)、生成硬件模型。包括創建硬件

無關的深度學習網絡模型、釋放深度學習網絡模型、網絡中添加操作符、網絡中添加操作

數、標識模型的輸入和輸出參數、創建硬件模型編譯對象、釋放硬件模型編譯對象、調用

硬件驅動完成硬件模型的生成接口,定義分別見表22、表23、表24、表25、表26、表27、

表28、表29。

表22創建硬件無關的深度學習網絡模型

參數輸入/輸出類型是否必選參數說明

模型輸出參數是初始化深度學習網絡模型

表23釋放深度學習網絡模型

參數輸入/輸出類型是否必選參數說明

模型輸入參數是需要釋放的網絡模型

表24網絡中添加操作符

參數輸入/輸出類型是否必選參數說明

模型輸入參數是需要添加操作符的網絡模型

操作符輸入參數是需要添加的操作符

表25網絡中添加操作數

參數輸入/輸出類型是否必選參數說明

11

T/CESAXXXX-202X

模型輸入參數是需要添加操作數的網絡模型

操作數輸入參數是需要添加的操作數

表26標識模型的輸入和輸出參數

參數輸入/輸出類型是否必選參數說明

模型輸入參數是需要確定輸入輸出的模型

輸入操作數輸出參數是模型的輸入操作數

輸出操作數輸出參數是模型的輸出操作數

表27創建硬件模型編譯對象

參數輸入/輸出類型是否必選參數說明

模型輸入參數是需要編譯的模型

編譯對象輸出參數是得到初始化的編譯對象

表28釋放硬件模型編譯對象

參數輸入/輸出類型是否必選參數說明

編譯對象輸入參數是需要釋放的編譯對象

表29調用硬件驅動完成硬件模型的生成

參數輸入/輸出類型是否必選參數說明

編譯對象輸入參數是需要生成硬件模型的編譯對象

3)模型執行接口:根據輸入、輸出參數,完成硬件的內存分配和模型的執行。包括創建硬件

模型的執行引擎、釋放硬件模型的執行引擎、設置硬件模型的輸入維度和數據、設置硬件

模型的輸出維度和數據、執行引擎啟動計算接口,定義分別見表30、表31、表32、表33

與表34。

表30創建硬件模型的執行引擎

參數輸入/輸出類型是否必選參數說明

編譯對象輸入參數是模型對應的編譯對象

執行引擎輸出參數是得到初始化的模型執行引擎

表31釋放硬件模型的執行引擎

參數輸入/輸出類型是否必選參數說明

執行引擎輸入參數是需要釋放的執行引擎

表32設置硬件模型的輸入維度和數據

參數輸入/輸出類型是否必選參數說明

執行引擎輸入參數是需要設置輸入的執行引擎

維度信息輸入參數是模型輸入的維度信息

數據輸入參數是模型輸入的數據

12

T/CESAXXXX-202X

表33設置硬件模型的輸出維度和數據

參數輸入/輸出類型是否必選參數說明

執行引擎輸入參數是需要設置輸出的執行引擎

維度信息輸出參數是得到模型輸出的維度信息

數據輸出參數是得到模型輸出的數據

表34執行引擎啟動計算

參數輸入/輸出類型是否必選參數說明

執行引擎輸入參數是需要運行的執行引擎

編譯器后端接入接口

深度學習框架推理側宜提供編譯器后端接入接口。若深度學習框架支持神經網絡編譯器后端接入,

則推理側編譯器后端接口要求應符合本文件章節的規定。

7深度學習框架多硬件平臺適配評價指標

7.1訓練多硬件平臺適配評價指標

7.1.1安裝部署

基于選定的基礎軟硬件平臺,深度學習框架應具備多種安裝部署能力,以便開發/測試/運維人員進

行使用/管理/維護/升級等工作:

a)應提供對應軟/硬件環境下的深度學習開發框架的安裝包,支持安裝/卸載功能;

b)應提供對應軟/硬件環境下的深度學習開發框架的容器運行鏡像,支持容器內運行環境;

c)應提供對應軟/硬件環境下的深度學習開發框架的容器編譯鏡像,支持容器內源碼編譯;

d)宜支持異構CPU編譯并支持純CPU訓練場景,支持CPU算子kernel優化與加速。

7.1.2模型支持與驗證

基于選定的基礎軟硬件平臺,深度學習框架應支持在圖像分類、目標檢測、圖像分割、語義表示、

機器翻譯、視頻分類、智能推薦等應用領域的10個模型及其精度評估指標,如附錄A.1所示。

7.1.3訓練性能與穩定性

基于選定的基礎軟硬件平臺,深度學習框架應在訓練性能、壓力與穩定性方面達到以下要求:

a)性能測試:應提供可供性能分析的數據來衡量模型訓練性能,例如固定配置下模型訓練時間;

b)穩定性測試:應保證多次訓練精度誤差在一定范圍內,訓練精度結果可穩定復現;

c)壓力測試:應支持7天以上長時間訓練,保證性能不出現嚴重下降和精度誤差在允許范圍內;

d)大規模分布式測試:支持多機多卡訓練,應提供多卡與多機加速比數據。

7.1.4易用性

深度學習框架在多硬件接入適配工作上應滿足易用性的要求:

13

T/CESAXXXX-202X

a)深度學習框架應提供說明文檔,對新硬件接入深度學習框架的工作進行指導,硬件廠商可根據

說明文檔進行獨立的深度學習框架的新硬件接入與適配開發工作。

b)深度學習框架應提供使用文檔,指導用戶針對不同目標硬件進行模型開發工作與訓練任務提交

工作等。

7.2推理多硬件平臺適配評價指標

7.2.1安裝部署

基于選定的基礎軟硬件平臺,與深度學習框架應具備多種安裝部署能力,以便開發/測試/運維人員

進行使用/管理/維護/升級等工作:

a)應提供對應軟/硬件環境下的深度學習推理框架的安裝包,支持安裝/卸載功能;

b)應提供對應軟/硬件環境下的深度學習推理框架的C/C++推理庫,支持模型部署上線;

c)應提供對應軟/硬件環境下的深度學習推理框架的容器運行鏡像,支持容器內運行環境;

d)應提供對應軟/硬件環境下的深度學習推理框架的容器編譯鏡像,支持容器內源碼編譯。

7.2.2模型支持與驗證

基于選定的基礎軟硬件平臺,深度學習框架應支持基礎模型,結果正確,性能符合對應硬件預期,

壓力測試下無異常結果。

a)云側推理:本文件規定了在圖像分類、目標檢測、圖像分割、語義表示、機器翻譯等應用領域

的主流模型的評估指標,如附錄B.1所示。

b)端側推理:本文件規定了在圖像分類、目標檢測、圖像分割等應用領域的主流模型的評估指標,

如附錄B.2所示。

7.2.3推理性能與穩定性

基于選定的基礎軟硬件平臺,深度學習推理框架應在推理性能、壓力與穩定性方面達到以下要求:

a)推理性能要求:在相應硬件下符合性能預期;

b)穩定性要求:多次測試結果一致;

c)壓力測試要求:壓力測試下,性能符合預期,無內存顯存泄露等異常情況。

7.2.4易用性

深度學習推理框架在多硬件接入適配工作上應滿足易用性要求:

a)應提供說明文檔,對新硬件接入深度學習推理框架的工作進行指導,硬件廠商可根據說明文檔

進行獨立的新硬件接入與適配開發工作;

b)應提供使用文檔,指導用戶針對不同目標硬件進行推理模型部署和推理任務提交工作等。

14

T/CESAXXXX-202X

附錄A

(資料性)

訓練模型列表

基于選定的基礎軟硬件平臺,深度學習訓練框架應支持的模型列表及其評價指標見表A.1。

表A.1訓練基礎模型列表及其評價指標

應用領域模型名稱數據集準確率約束(>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論