




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1GB/TXXXXX.1—XXXX人工智能計算設備調度與協同第2部分:分布式計算框架本文件確立了人工智能計算設備分布式計算的架構,規定了功能和性能技術要求,定義了分布式計算協同接口。本文件適用于用于分布式人工智能計算的系統設計、開發和測試。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/TXXXXX.1—202X人工智能計算設備調度與協同第1部分:虛擬化與調度系統技術規范GB/TAAAAA—202X人工智能異構人工智能加速器統一接口3術語和定義GB/T41867—2022,GB/T42018—2022,GB/TXXXXX.1—202X和GB/TAAAAA—202X中界定的以及下列術語和定義適用于本文件。3.1分布式機器學習distributedmachinelearning一種機器學習的方法或過程,利用互聯網絡作為首選通信載體,在不同子系統上完成同一個機器學習任務。[來源:ISO/IEC2382:2015,2178059,有修改]3.2聯邦機器學習federatedmachinelearning一種機器學習方法或過程,能讓多個參加者協作構建及使用機器學習模型而不暴露參加者所擁有的原始數據或私有數據。[來源:IEEE3652.1,3.1]3.3增量學習incrementallearning一種分為多個階段的自適應學習方法,其中在前驅階段學得的知識被轉化為適當形式,以便為后繼階段的新知識提供基礎。2GB/TXXXXX.1—XXXX[來源:ISO/IEC2382:2015,2123002,有修改]3.4邊緣計算edgecomputing一種分布式計算方法或過程,其中處理及存儲過程發生在分布式系統的邊緣。[來源:ISO/IECTR23188:2020,3.1.3]3.5集合通信collectivecommunication一種通信模式,其所傳遞數據在一組處理器單元(稱為節點)上處理,其進程或計算節點之間協同工作以進行數據交換和同步。4縮略語下列縮略語適用于本文件。AI:人工智能(ArtificialIntelligence)CPU:中央處理單元(CentralProcessingUnit)FPGA:現場可編程邏輯門陣列(FieldProgrammableGateArray)GPU:圖形處理單元(GraphicsProcessingUnit)NPU:神經網絡處理單元(Neural―networkProcessingUnit)RDMA:遠程直接內存訪問(RemoteDirectMemoryAccess)RoCE:基于融合以太網的遠程直接內存訪問(RDMAoverConvergedEthernet)SSL:安全套接字層(SecureSocketsLayer)5概述5.1總體框架AI分布式計算協同的總體框架見圖1,包含:a)提供AI任務生命周期內的協同計算支持(如統一資源池化、分配、調度等);b)支持設備(如云/邊/端設備)的分布式運行環境;c)實現不同物理部署形態的設備間的通信、控制及任務管理;d)提升任務執行保障能力,降低分布式應用的作業延時,提升作業吞吐率;e)實現AI任務的分布式協同(如分布式訓練、模型多端部署推理、增量訓練、聯邦學3GB/TXXXXX.1—XXXX圖1AI分布式計算協同的總體框架5.2適用性在使用本文件時,應基于計算協同系統的組成和目標應用場景,匹配協同模式(云云協同(見7.4)、云邊端協同(見7.5)、多端協同(見7.6)),并滿足相應的技術要求。不要求單個特定系統符合所有的協同模式和技術要求。6計算設備技術要求6.1云側設備6.1.1概述云側AI計算設備及其使用:a)類型包含:1)云側訓練(包含微調);2)云側推理;3)增量訓練;4)聯邦學習。b)遵循以下使用原則:1)訓練過程與數據源分離;2)監控AI任務全生命周期過程;3)共享計算資源;4)使用虛擬化技術管理計算資源;5)針對計算需求,彈性伸縮計算資源的使用。6.1.2技術要求云側AI計算設備,符合以下要求:a)符合GB/T42018—2022中6.1.1.1和6.1.1.2的要求;4GB/TXXXXX.1—XXXXb)應支持模型訓練所需的軟件和模式,包含:1)機器學習框架;2)云側分布式集群訓練;3)過程可視化,包含訓練過程、數據處理過程等。c)應提供與邊緣設備或終端設備兼容的互操作協議及接口;d)應支持訓練或推理任務鏡像管理;e)宜支持異構AI加速處理器的資源池化和統一調度。6.2邊緣設備6.2.1概述邊側AI計算設備參與協同計算,遵循以下使用原則:a)考慮將小規模的計算與服務部署在邊側或端側;b)考慮存儲、傳輸、計算和安全任務;c)在本地執行數據處理,避免數據網絡傳輸中的風險;d)考慮業務場景要求的實時性。6.2.2技術要求邊側AI計算設備,符合以下要求:注:邊緣AI計算設備包含但不限于應用于邊緣計算場景的AI服務器、AIa)應提供與終端設備或云側設備的協同接口;b)應具備數據隔離措施,在受攻擊時只影響本地設備,而非其他參與協同的設備;c)宜支持視頻分析、文字識別、圖像識別、聲音處理等應用;d)宜支持流數據的實時處理;e)宜能在邊緣存儲實時信息;f)宜能獨立本地監控或配合云側設備監控邊緣節點的運行狀態;g)宜支持推理任務或訓練任務。6.3終端設備6.3.1概述端側AI設備參與協同計算,一般部署在數據或處理需求發生(如數據源)的位置附近。6.3.2技術要求端側AI計算設備,符合以下要求:a)應支持基于輕量化機器學習框架的運行(訓練或推理);b)應支持脫離機器學習框架的模型部署,在設備上直接運行;c)宜支持分布式訓練,包含:1)其他終端設備、云側設備或邊緣設備協同訓練;2)兼容至少1種分布式訓練框架;3)支持差分隱私機制。d)宜支持數據預處理(如圖像縮放、圖像填充、圖像旋轉、聲音去噪等e)宜支持與邊緣設備或云側設備的交互,完成推理;f)宜支持多端協同,包含但不限于:5GB/TXXXXX.1—XXXX1)管理多個終端設備;2)多個終端設備之間的數據協同與共享;3)多個終端設備之間計算任務的調度與分發。7分布式計算協同技術要求7.1架構AI計算設備分布式計算的架構見圖2。圖2AI計算設備分布式計算架構注:虛線框起的部分是GB/TXXXXX.1―202X中規定的內容,也是分布式管理7.2通用要求AI計算設備分布式計算協同整體符合以下要求:a)應能管理機器學習算法的運行環境配置,包括支持云側設備、邊緣設備和終端設備;b)支持應用在云側、邊側或端側的AI計算設備上的運行,滿足以下要求:1)應支持云側模型裁剪、壓縮和優化;2)宜支持聯邦學習;3)宜支持云內、云邊或云端協同推理;4)應支持云側分布式訓練,宜支持邊緣側分布式訓練;5)宜支持云邊協同的增量訓練。c)實現分布式計算過程,符合以下要求:1)應具備容錯性,在訓練過程中有節點或網絡連接出現故障(如節點、交換或路由設備不工作或性能下降)時,保證原有任務的繼續進行,直到完成;2)宜提供統一的編程模型,屏蔽不同機器學習框架或異構計算設備的差異;3)宜能利用集群中分布式存儲設備,根據不同的分布式計算場景(如云側內部端云,邊云等)設置相應的存儲方式;4)應支持計算設備管理,能虛擬化并分配AI加速卡或AI加速處理器資源。注:計算設備的管理和調度,見GB/TXXXXd)分布式多終端協同,符合如下要求:1)宜實現去中心化的多終端設備AI任務協同;2)應實現節點狀態的實時維護與共享(含節點資源使用狀態);6GB/TXXXXX.1—XXXX3)應實現在調度實時性保障機制(如超時機制等);注:集群組網使用無線連接(如無線局域網或藍牙)時,可能會出現傳輸速4)宜實現設備狀態或能力適應性協同策略(如按可用計算能力調度注:多終端設備結構不同則能力不同,計算5)計算調度過程不應影響其他設備或應用的運行(如正常的視頻播放任務不應被打斷,或導致播放卡頓等)。7.3組件要求7.3.1機器學習框架用于分布式機器學習任務的機器學習框架,符合以下要求:a)應能在云側、邊側設備或端側等設備上運行;b)配備模型部署工具,符合以下要求:1)應支持模型的云側部署;2)應支持輕量化框架(特定場景中非必要組件被剪裁在云側訓練的模型,能部署在端側或邊側;3)應支持在內存受限的設備或環境中的運行。4)宜支持模型量化,并在用戶需求允許的誤差范圍內,使模型從云側遷移至端側或邊側;c)應支持以下至少1種計算協同模式:1)云側訓練-端側推理;2)云側訓練-邊側推理;3)云側-端側聯邦學習;4)云側-邊側聯邦學習;5)云側-邊側-端側聯合推理。d)宜支持云端邊AI計算協同模式,包含但不僅限于:1)云側訓練-端側增量訓練-端側推理;2)云側訓練-邊側增量訓練-邊側推理;3)云側訓練-邊側增量訓練-端側推理。e)宜在跨云側、邊側、端側應用統一的計算圖中間表示,支持一次訓練后的模型在端、邊、云上的無(格式)轉換部署。7.3.2虛擬化與調度組件AI加速處理器或AI加速卡的虛擬化與調度組件,符合以下技術要求:a)應符合GB/TXXXXX.1―202X中規定的虛擬化要求;b)資源調度系統應能調用AI加速卡或AI加速處理器及其虛擬化實例,包含:1)AI訓練加速卡;2)AI推理加速卡;3)能用于訓練及推理任務的AI加速卡。c)任務調度,符合以下要求:1)應支持云側之間的訓練任務調度,實施分布式訓練;2)宜支持邊側之間的訓練任務調度,支持邊側增量訓練或分布式訓練;7GB/TXXXXX.1—XXXX3)應支持云側或邊側之間的推理任務調度,支持大模型推理,克服單處理器或單卡運行時內存限制;4)宜支持云側和邊側之間的訓練任務調度,能完成云側訓練—邊側增量訓練的任5)宜支持云側和端側之間的訓練任務調度,完成云側—端側協同訓練任務(如聯邦學習);6)宜支持云側和端側間的訓推任務調度,完成云側訓練—端側推理任務;7)宜支持邊側和端側間的訓推任務調度,完成邊側訓練(如增量訓練)—端側推理的任務。7.3.3安全組件7.3.3.1安全原則AI分布式協同計算相關組件的應用,應按圖1規定的生命周期和流程識別以下風險,包含但不限于:a)易受竊取等攻擊的資產及相關攻擊模式,包含:1)訓練腳本或代碼文件;2)訓練數據集文件;3)模型文件(包含預訓練模型文件、訓練結果文件和在計算節點中的模型文件)。b)模型文件,在云、邊、端側的完整性被破壞(如被修改);c)模型及相關文件(含訓練腳本、訓練數據集、模型的參數文件等)的機密性被破壞;d)被惡意攻擊,導致輸出結果錯誤,或無法正常輸出結果;e)推理輸入數據被截獲或修改;f)云側或邊側的容器構建、部署、運行安全威脅;g)邊側接口的非授權接入和訪問;h)在無中心(如無云側)架構系統中忽略使用熱備、冗余機制,造成數據丟失或業務7.3.3.2安全要求7.3.3.2.1為訓練階段實現安全防護機制,符合以下要求:a)云側:1)應能對上載到云側的加密模型、訓練數據和訓練腳本,實施解密;2)應能在運行訓練腳本前,校驗訓練鏡像文件。b)邊側:1)應支持云側下發鏡像校驗和模型加解密;2)宜支持聯邦學習梯度信息的加解密;3)宜支持端側設備上傳數據的簽名和加密。c)端側,宜支持聯邦學習梯度數據的加密。7.3.3.2.2為推理階段實現安全防護機制,符合以下要求:a)云側:1)應支持在云側配置模型所在容器的最小訪問權限;2)應支持模型的解密;8GB/TXXXXX.1—XXXX3)應能對加載到云側的鏡像實施完整性校驗。b)邊側:1)宜支持秘鑰管理,能對云側下發的鏡像或模型實施校驗;2)宜支持推理數據的加解密;3)宜支持入侵檢測,實現用戶權限管理,能記錄和警告非授權訪問;4)宜支持邊用戶身份校驗,實現應用授權訪問。c)端側:1)宜支持秘鑰管理,對云側下發到端側模型實施身份校驗;2)宜支持推理數據本地加解密;3)宜能在模型上傳至云側或邊側進行推理前,加密模型;4)宜能在終端設備使用虛擬機或容器時,在多終端設備間實現基于虛擬機或容器的安全隔離機制。7.3.4集合通信庫集合通信庫符合如下要求:a)應實現AI加速卡間或AI加速器間通信(如云側內部分布式訓練所需的通信);b)應能在下列至少1項集合通信拓撲結構上工作:1)全網狀結構(FullMesh);2)星形拓撲結構(Star);3)環形拓撲結構(Ring);4)樹拓撲結構(Tree);5)3DTorus拓撲結構;6)Dragonfly拓撲結構。c)宜實現同步機制或超時控制機制;d)應支持或兼容至少1種集合通信協議,如RoCE或RDMA等;e)應支持集合通信效率衡量指標,如延時、延時方差、延時均值等;f)應實現統一的集合通信接口,宜符合GB/TAAAAA—202X的要求。7.4云云協同要求云云協同的框架如圖3所示,協同過程符合以下要求:9GB/TXXXXX.1—XXXX圖3云云協同框架a)應實現有中心調度或無中心調度(如基于云聯邦的調度);b)對有中心調度,中心調度器:1)應能收集和監視全網計算資源的狀態;2)應能跨云(或計算中心)調度作業,轉發和傳輸作業運行數據;3)宜實現至少1種調度策略(如負載感知調度、價格感知調度、網絡感知調度或數據感知調度等)。c)對有中心調度,調度適配器:1)應能收集調度器資源和作業執行狀態信息,并上報至中心調度器;2)宜能向授權用戶提供統一視圖,使其能驅動特定計算資源執行計算任務。d)宜實現基于統一賬戶的認證和確權;e)宜實現統一計算消耗計量和計費。7.5云邊端協同要求7.5.1管理協同GB/TXXXXX.1—XXXX圖4云邊端協同框架云邊端協同框架見圖4,管理協同符合如下要求:a)應支持邊側或端側中單節點或節點組管理;b)應支持邊緣或終端異構設備(如使用不同類型的AI加速處理器)的管理,提供統一的管理接口;c)應支持邊緣計算任務監控,包含運行于容器中的應用;d)應支持操作系統異構(如基于Linux的操作系統,Android,Windows等)邊緣設備的管理和任務協同;e)應為邊緣或終端設備提供統一運行時組件,屏蔽邊緣或終端設備操作系統差異;f)應支持邊緣許可證的管理和使用,宜能根據許可信息控制邊緣AI計算任務的數量、數據接入路數(如攝像頭視頻數據)、請求并發度閾值或使用時長;g)應支持模型加密;h)應支持秘鑰的云側加密保存;i)應支持基于秘鑰的邊緣模型運行控制(運行前需解密模型);j)應支持秘鑰的云側導出和邊緣本地秘鑰導入解密;k)應支持邊緣設備上用于模型解密的證書的合法性校驗;l)宜支持遠程安全鏈接(如SSL)登錄、監視、調試邊緣設備;m)應支持云側對邊緣設備的監控,或邊緣設備本地的監控,監控的對象包含設備內存、磁盤、AI加速處理器使用率,宜支持運行異常警告;n)宜能管理不小于128個邊緣節點;o)宜支持至少2類設備的接入,如:1)移動通信終端(如手機、計算機);2)攝像機;3)智能機器人;4)物聯網傳感器;5)激光雷達、毫米波雷達;6)信號機;7)氣象要素傳感器;8)道路單元。GB/TXXXXX.1—XXXXb)宜支持基于圖形界面的邊緣或終端設備管理。7.5.2任務協同云邊任務協同,符合以下要求:a)應支持云上模型訓練、邊緣或終端側部署、推理的協同模式;b)應支持向邊緣設備或終端設備直接部署含有模型的容器;c)應支持大模型在邊緣或終端的部署及推理(在邊緣或終端設備功能允許時);d)應支持邊緣或終端設備(在云側注冊后)的離線運行;e)應支持對邊緣或終端設備的功能或服務實施查詢和配置(如服務名稱、狀態、請求模式、部署方式、創建時間、描述等);f)應支持邊緣AI計算任務的啟動和停止;g)宜支持邊緣AI計算任務的創建、查詢、修改和刪除;h)宜支持設定邊緣AI計算任務的運行計劃配置(如按時段或固定頻率);i)宜支持邊緣或終端設備上應用的服務次數統計(如調用次數、調用成功率等);j)宜支持基于多個邊緣設備形成資源池,實現以下功能:1)資源池創建、狀態查詢、配置修改(如修改描述、邊緣節點等);2)池內設備間的負載均衡,自動分發請求、調度和利用邊緣或終端設備;3)池內設備節點管理,包含節點創建、修改、刪除、激活、去活、狀態查詢。k)宜支持邊緣模型回流到云上的增量訓練;l)宜支持邊緣節點從云側獲取鏡像完成本地更新;m)在邊緣或終端計算任務運行期間,邊緣或終端設備宜能接收云側下發的模型,完成模型更新。7.5.3數據協同云邊數據協同,符合以下要求:a)應實現梯度數據和增量樣本數據的云側壓縮和傳輸(在云側與邊緣或終端之間包含邊緣推理數據(在授權狀態下)回流云側;b)應用于多媒體處理場景的邊側或端側設備,符合以下要求:1)應支持云側、其它邊側或終端設備之間的數據轉發或互訪;2)宜支持多媒體數據的轉碼、點播、直播、錄像和檢索;3)宜支持地圖數據的共享分發。c)邊側設備支持數據存儲時,符合以下要求:1)應能將推理結果的本地緩存;2)應能存儲媒體數據、關系型數據(如通過數據庫實現)、鍵值數據或時序數據。d)應支持數據實時傳遞(如監視器或攝像機采集的視頻數據回傳云側分析)。7.6多端協同要求7.6.1多端數據協同GB/TXXXXX.1—XXXX圖5多端協同框架多端協同框架示意見圖5。多端數據協同,符合以下要求:a)應能在多個終端設備間傳輸數據,實現設備間的數據讀寫;b)應支持多端、多模數據(至少2種模態)融合;c)宜實現離線時數據在端側設備的自動保存;d)宜支持端側對云側或邊側的自動數據同步(網絡狀態允許時)。7.6.2多端設備協同多端協同系統,應支持跨設備的輸入、輸出(如攝像機捕捉的影像,直接在大屏顯示,并不需在移動通信終端等主控端介入或協調)。7.6.3多端計算協同多端協同系統,符合以下計算協同要求:a)應能拆分并分配任務到多個端側設備上,分別計算完成后整合、返回結果;b)應支持以下推理計算任務:1)發起、拆分、分發和管理推理任務;2)端側設備能依據自身計算、存儲資源動態加載對應模型;3)端側設備能按節點狀態、網絡狀態、計算功耗等因素判斷并選擇協同模式;4)端側實現容錯機制,包含異常檢測、任務重試和失敗重發。8云邊端分布式計算協同接口8.1邊緣節點管理8.1.1概述邊緣AI計算節點管理過程的示意見圖6,管理操作含節點查詢、刪除和注冊等。GB/TXXXXX.1—XXXX圖6邊緣節點和節點組的管理8.1.2接口邊緣節點管理的接口,應符合表1~表3的要求:表1注冊設備邊緣或終端設注冊特定邊緣或終端接口在特定系統中實現時,可根據系統需求增加參數(如指定AI加速表2查詢設備查詢設使用設備標識查詢返GB/TXXXXX.1—XXXX設備在設備組中的工作類型a。包接口在特定系統中實現時,可根據系統需求增加參數(如指定AI加速表3刪除、啟動或停止設備動或停止邊緣或終端在某些系統中,刪除、啟動、停止設備可分為多8.2部署及更新8.2.1概述模型或應用從云
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 導航算法面試題及答案
- c類安全員在線繼續教育考試試題及答案
- 腰椎峽部裂護理查房
- CCAI內審員考試試題及答案
- cad技能三級考試試題及答案
- c1客運考試試題及答案
- c類專業知識考試試題及答案
- ae客戶執行筆試題目及答案
- 2025哲理公務員面試題及答案
- SVCV感染對斑馬魚腸道菌群的影響及互作關系研究
- 2025年教育行業工會工作計劃
- 小兒靜脈輸液安全管理
- 梗阻性肥厚型心肌病的臨床護理
- 合規管理考試試題及答案
- 施工現場安全作業流程考題
- 焊工初級測試試題及答案
- 福建省福州教育學院附屬中學2025年高三沖刺模擬英語試卷含解析
- 青少年足球訓練營未來三年計劃
- 近五年安徽中考英語真題及答案2024
- 2024年高校輔導員考試題庫試題及答案
- 現澆箱梁施工培訓課件
評論
0/150
提交評論