《高性能計算 分布式存儲系統技術要求》_第1頁
《高性能計算 分布式存儲系統技術要求》_第2頁
《高性能計算 分布式存儲系統技術要求》_第3頁
《高性能計算 分布式存儲系統技術要求》_第4頁
《高性能計算 分布式存儲系統技術要求》_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.160

CCSL63

團體標準

T/CESAXXXX—202X

高性能計算分布式存儲系統技術要求

Highperformancecomputing-Technicalrequirementsfordistributedstoragesystem

草案

在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。

已授權的專利證明材料為專利證書復印件或扉頁,已公開但尚未授權的專利申請

證明材料為專利公開通知書復印件或扉頁,未公開的專利申請的證明材料為專利申請

號和申請日期。

202X-XX-XX發布202X-XX-XX實施

中國電子工業標準化技術協會發布

T/CESAXXXX—202X

高性能計算分布式存儲系統技術要求

1范圍

本文件規定了高性能計算分布式存儲系統的技術要求,包括物理基礎設施、集群軟件能力、功能模

塊、運維管理、安全性和綠色節能等方面的要求。

本文件適用于高性能計算分布式存儲系統的設計與部署。

2規范性引用文件

本文件沒有規范性引用文件。

3術語和定義

3.1術語和定義

下列術語和定義適用于本文件。

3.1.1

卷volume

塊存儲系統中物理空間的邏輯分區,為虛擬機(VM)或物理機提供裸設備方式進行數據存取。可

進行創建、刪除、擴展等操作。

[來源:GB/T37737-2019,3.1.3]

3.1.2

存儲節點storagenode

一臺物理主機或是盤陣,主要用于存儲數據,復制數據,平衡數據。

3.1.3

元數據節點metadatanode

用于分布式存儲集群內部做數據管理的物理節點。

3.1.4

元數據metadata

描述數據的數據,規定數據的存放位置、修改時間、權限等信息,通過元數據可獲取到用戶方上

傳的數據,元數據具有體量適中、更改頻率適中、讀取頻繁的特點。

3.1.5

數據分層管理datalayermanagement

1

T/CESAXXXX—202X

將存儲空間按存儲能力劃分成不同層級,允許用戶根據業務具體需求來定義數據的目標存儲層級,

并支持數據在不同層級間的按需流動,將數據及時靈活地分配至合理的存儲空間,在性能和成本之間

取得最佳平衡。

3.1.6

綠色節能greenandenergy-saving

數據機房通過優化配置軟硬件設施,使其在數據實現存儲性能穩定可靠的條件下,實現能源、

資源利用率最大化和環境影響最小化。

3.1.7

存儲算法節能storagealgorithmenergy-saving

對存儲系統運維采取智能調度算法,在滿足動態存儲需求的前提下,有效降低存儲系統的能耗。

3.2縮略語

下列縮略語適用于本文件。

CIFS:公共互聯網文件系統(CommonInternetFileSystem)

CPU:中央處理器(CentralProcessingUnit)

ECC:糾錯碼(ErrorCheckingandCorrecting)

HDD:硬盤驅動器(HardDiskDrive)

HDFS:Hadoop分布式文件系統(HadoopDistributedFileSystem)

HPC:高性能計算/超算(HighPerformanceComputing)

IB:無限帶寬(InfiniBand)

I/O:輸入/輸出(Input/Output)

IOPS:每秒讀寫次數(Input/OutputOperationsPerSecond)

IPMI:智能平臺管理接口(IntelligentPlatformManagementInterface)

IP:網際協議(InternetProtocol)

IQN:ISCSI限定名稱(ISCSIQualifiedName)

ISCSI:互聯網小型計算機系統接口(InternetSmallComputerSystemInterface)

JBOD:將多個物理磁盤組合在一起形成一個大型邏輯存儲空間(JustBunchofDisks)

JBOF:將多個物理閃存芯片組合在一起形成一個大型邏輯存儲空間(JustaBunchofFlash)

MPI:消息傳遞接口(MessagePassingInterface)

NFS:網絡文件系統(NetworkFileSystem)

NVDIMM:非易失性雙列直插式內存模塊(non-volatiledualin-linememorymodule)

NVMe:非易失性內存主機控制器接口規范(Non-VolatileMemoryExpress)

NVMe-OF:一種將NVMe存儲設備通過網絡連接的技術(NVMeoverFabrics)

PKI:公開密鑰基礎設施(PublicKeyInfrastructure)

POSIX:可移植操作系統接口協議(PortableOperatingSystemInterfaceforUnix)。

QoS:服務質量(QualityofService)

RAID:磁盤陣列(RedundantArraysofIndependentDisks)

RDMA:遠程直接數據存取(RemoteDirectMemoryAccess)

RoCE:基于以太網鏈路層實現的RDMA(RDMAoverConvergedEthernet)

SAS:串行連接SCSI接口(SerialAttachedSCSI)

SATA:串行高級技術附件(SerialAdvancedTechnologyAttachment)

2

T/CESAXXXX—202X

S3:簡單存儲服務(SimpleStorageService)

SNMP:簡單網絡管理協議(SimpleNetworkManagementProtocol)

SMB:服務器消息塊(ServerMessageBlock)

SSD:固態驅動器(SolidStateDrive)

VM:虛擬機(VirtualMachine)

4高性能計算分布式存儲系統

4.1總體架構

高性能計算分布式存儲系統的特點是節點數多(節點規模幾十到上百個),總容量大(容量的規模

是PB級甚至EB級),具備高性能、高可靠及可擴展的能力,以滿足大規模計算任務對數據存儲和訪問的

需求,支持高性能計算的有效運行。高性能計算分布式存儲系統總體架構見圖1。

圖1高性能計算分布式存儲系統架構

4.2部署模式

4.2.1分布式對稱架構

分布式對稱架構應支持存儲節點同時部署分布式存儲系統的元數據服務和數據存儲服務,見圖2。

3

T/CESAXXXX—202X

圖2分布式對稱架構

4.2.2分布式非對稱架構

分布式存儲非對稱架構見圖3,應符合下列要求:

a)節點角色有明確的功能劃分;

b)支持獨立的元數據節點,即只部署分布式存儲系統的元數據服務;

c)支持獨立的存儲節點,即只部署分布式存儲系統的數據存儲服務。

圖3分布式非對稱架構

4

T/CESAXXXX—202X

5物理基礎設施

5.1存儲節點

5.1.1節點形態

符合下列要求:

a)應支持獨立的服務器或服務器+盤陣(JBOD/JBOF)的組合;

b)應支持主流的處理器,如ARM、MIPS、C86、X86、RISC-V、LoongArch、SW64等;

c)應支持可擴展的內存配置;

d)宜支持存儲網絡與管理網絡分離;

e)存儲網絡應支持25Gb、100Gb或更高速度的網絡接口;

f)管理網絡應支持1GbE、10GbE網絡接口;

g)節點電源(PSU)應采用冗余配置,宜采用較高能效的產品;

h)元數據節點宜采用全閃存設計;

i)數據節點應支持固態盤(SSD)和機械硬盤(HDD)等主流存儲介質;

j)數據節點應支持不同類型、容量的存儲介質混合部署。

5.1.2節點高可靠性

符合下列要求:

a)應支持硬件冗余,如電源、風扇、網絡接口等關鍵部件的雙冗余設計;

b)應支持熱備份和維護功能,可以在不影響系統正常運行的情況下進行硬件部件的更換和維護;

c)系統盤宜采用1+1冗余配置;

d)元數據節點應采用AllActive的集群方式工作,保證性能和可靠性。

5.2網絡節點

5.2.1網絡架構協議

符合下列要求:

a)管理網絡應支持以太網協議,如1GbE、10GbE;

b)存儲網絡應支持25Gb、100Gb或更高速度的網絡接口;

c)應支持RDMA等協議;

d)宜支持IB等協議。

5.2.2網絡高可靠性

符合下列要求:

a)應具備冗余的硬件設計,包括冗余的電源、風扇和接口等;

b)應具備自動故障恢復能力,能夠在故障發生時自動切換到備用路徑或備用設備;

c)應支持負載均衡技術,根據實際負載情況對數據流進行均衡分配。

6集群軟件能力

6.1軟件高性能

符合下列要求:

5

T/CESAXXXX—202X

a)應支持系統并行處理,系統可以同時處理多個請求,提高處理能力;

b)應支持數據并發訪問,允許多個客戶端同時讀寫數據,提高系統的響應速度;

c)應支持數據并行訪問,單客戶端可同時連接并訪問多個存儲節點,提高讀寫速度;

d)應支持數據多節點分布及負載均衡,使性能隨節點增加近似線性增長;

e)應支持采用多級緩存技術對IO進行聚合加速,提升系統整體IO性能;

f)應支持多個計算節點對元數據的同時訪問和修改;

g)宜優化協議和通信模式(如批量傳輸、異步通信等方式),減少通信的開銷和延遲,提高處理

性能;

h)宜支持壓縮技術,減少數據的存儲空間和傳輸帶寬,提高系統的整體性能。

6.2軟件高可靠性

符合下列要求:

a)應支持分布式高可用架構,確保快速故障轉移和恢復;

b)應具備數據的冗余存儲和容錯機制,以確保在節點故障或數據損壞時進行數據恢復;

c)應通過一致性協議確保數據的一致性;

d)應通過校驗機制確保數據在傳輸及存儲過程中的完整性;

e)應支持系統狀態和性能的監控,發現問題時發出警報。

6.3軟件擴展性

6.3.1動態擴容

符合下列要求:

a)應支持存儲集群容量縱向擴展和橫向擴展方式;

b)應支持在線系統擴容,不需要更改應用程序,對客戶業務無中斷;

c)在存儲集群擴容時,應支持數據分布再均衡;

d)在存儲集群擴容時,應支持現有數據的冗余副本分布到新節點上。

6.3.2集群規模的支持

符合下列要求:

a)應支持通過增加集群節點的數量,實現集群規模的擴展;

b)應支持擴展至PB級及以上;

c)應支持擴展至百節點及以上;

d)應支持存儲性能隨節點數量的增加近似線性增長。

6.4代碼開發和深度優化能力

符合下列要求:

a)應具備自主存儲軟件相關的研發能力;

b)應具備自主修改優化開源代碼并二次開發的能力;

c)應支持國內外主流操作系統及芯片技術為平臺的適配能力。

7存儲功能模塊

7.1元數據管理能力

6

T/CESAXXXX—202X

符合下列要求:

a)應支持數據精準檢索和快速查詢;

b)應支持通過多副本的方式,保證數據的可靠性;

c)應支持對海量數據的有效存儲與管理;

d)應支持對用戶自定義的業務元數據打標簽,進行上述管理。

7.2全局緩存的設定

符合下列要求:

a)應支持設置基于各存儲節點高速內存組成的全局緩存池或設置基于高性能NVMeSSD存儲介質

的多個獨立節點組成的全局緩存池;

b)應保證全局緩存池緩存數據一致性與高可用性;

c)應支持非緩存數據預讀至全局緩存池,提升讀請求的緩存命中率。

7.3數據一致性機制

應符合下列要求:

a)應支持統一命名空間,支持全局共享文件系統,對任意節點、文件的讀寫,在所有節點都能體

現;

b)應提供元數據一致性檢查工具,可對全系統元數據進行元數據一致性檢查,并且自動修復不一

致的元數據;

c)應提供對數據的一致性檢查工具,保證落盤數據的一致性;

d)應支持高效鎖機制,保證高并發讀寫數據的一致性;

e)應支持多副本數據的一致性;

f)應支持在故障恢復期間,保障數據的一致性,避免因故障導致的數據不一致問題。

7.4數據生命周期管理

符合下列要求:

a)應支持按照不同存儲能力創建存儲層級,如性能、成本或可靠性等級等;

b)應支持創建分層策略,可設定條件對數據進行區分,并根據區分結果定義數據的目標存儲層級;

c)應支持根據分層策略,在創建數據時支持將數據寫入對應層級;

d)應支持根據分層策略,支持將數據從當前層級遷移到對應層級。

7.5高可用及容錯能力

符合下列要求:

a)應支持數據冗余技術(如糾刪碼、數據副本),將數據分散存儲到不同的存儲節點上,確保數

據的可用性;

b)應支持冗余路徑訪問等容錯技術,提高訪問可用性;

c)應支持自動檢測故障,發現故障后,進行故障處理和數據恢復。

7.6遠程復制能力

符合下列要求:

a)應支持基于時間策略的快照;

b)應支持異步遠程復制功能;

c)應支持手動或自動的方式進行數據復制;

7

T/CESAXXXX—202X

d)應支持基于斷點恢復數據復制及同步工作。

7.7多負載及多協議的支持

符合下列要求:

a)應支持標準POSIX協議和MPI接口訪問;

b)應支持讀密集型IO、寫密集型IO、讀寫密集型IO的數據訪問,并具備針對單一類型IO性能優化

的能力;

c)支持多應用程序間的文件共享,同時支持并發讀寫文件;

d)應支持限制各個應用程序的IO并發或資源占用,同時應對高并發、高帶寬的場景。

e)應支持文件、對象、塊的訪問;

f)宜支持單一命名空間下通過不同協議(POSIX/NFS/SMB/S3/HDFS等)進行操作變更時,對其它

協議均可見;

g)宜支持通過私有客戶端訪問能力;

h)宜支持多種處理器對存儲直接訪問,如GDS等。

8運維管理

8.1性能管理

符合下列要求:

a)應支持可視化方式展示集群、存儲池、節點及各存儲系統的監控狀態;

b)應支持監控集群運行狀態、容量使用及性能狀況,如CPU、內存、網卡、硬盤等;

c)應支持監控存儲系統的性能狀況(如IOPS、帶寬、時延等)和容量使用情況;

d)應支持存儲性能管理,通過監控存儲系統的性能指標及存儲空間的使用情況,優化存儲配置、

調整數據分布,提高存儲性能;

e)應建立數據分布均衡機制,通過監控數據分布進行數據遷移或調整,確保集群中數據的分布均

衡;

f)宜支持根據不同維度的信息形成統計報表,如硬盤容量、CPU占用率等。

8.2故障管理

符合下列要求:

a)應支持實時展示系統性能信息,存儲服務的運行狀態,保存和查詢及支持日志分析;

b)應支持全面的故障監測和檢測機制,包括但不限于節點狀態監測、存儲設備健康檢查、數據完

整性檢驗等;

c)應支持高效的故障定位和診斷功能,能夠快速確定故障發生的節點或設備,并提供詳細的診斷

信息和日志記錄,方便故障的分析和解決;

d)應支持完善的故障管理工具,包括但不限于故障管理系統、故障報告和跟蹤工具、故障分析工

具等,以便進行故障的記錄、跟蹤和分析;

e)應支持不同故障處理機制,針對硬件,軟件故障和漏洞補丁,設置不同的告警方式;

f)應支持當節點失效或節點重新加入時,存儲業務基于節點自動負載均衡。

8

T/CESAXXXX—202X

8.3容量管理

符合下列要求:

a)應支持存儲空間實時監控,及時發現容量不足,設置相應的報警機制并采取相應的措施,如擴

容或數據清理;

b)應支持對容量增長的監測,進行容量評估,預留足夠的存儲空間以滿足未來的需求;

c)應支持數據壓縮和去重,對于冗余數據和重復數據,進行壓縮和去重處理,節省存儲空間;

d)宜支持容量分析和預測,如存儲資源的消耗趨勢等;

e)應支持存儲設備在擴容后,實現節點之間的容量負載均衡。

8.4智能化運維

符合下列要求:

a)應支持故障信息智能診斷,輸出常見問題的故障分析報告;

b)應支持性能瓶頸和熱點統計分析,智能分析業務的運行特點便于調整業務,更優發揮存儲系統

的效能能力;

c)應支持用戶業務深度學習及自動適配,不同的IO模型適配相應的參數優化配置;

d)應支持對整個集群有版本一致性檢測,管理維護和一鍵升級能力;

e)宜具備故障預測和預防機制,通過數據分析、機器學習等技術,對系統狀態進行實時監測和分

析,預測潛在的故障風險,并采取相應的預防措施;

f)宜支持收集和分析運維數據,應用機器學習和數據挖掘技術,預測設備性能下降,以提前采取

相應的措施;

g)宜支持自動化的故障檢測和修復,自動識別問題、自動調整配置和自動修復故障,實現系統的

自愈性能,減少人工干預和修復時間;

h)宜支持自動化故障處理,能夠根據故障類型和級別自動觸發相應的操作,如節點重啟、數據遷

移、冗余數據重建等。

9綠色節能

9.1軟件和算法節能

符合下列要求:

a)應支持負載均衡、調度智能、算法高效,能夠大幅提高數據利用效率,有效降低能耗;

b)應支持先進算法節能技術,包括數據重刪技術、糾刪碼技術、數據壓縮技術,顯著降低存儲

系統能耗;

c)應支持基于數據預測、動態計算、閾值設置等,合理執行智能調度策略。

9.2硬件節能的支持

9.2.1節點節能

符合下列要求:

a)應支持風扇節能調速技術,通過PID等調速算法實現風扇快速節能調速;

b)宜支持功耗封頂技術,改善數據中心的能源利用率。

9.2.2硬盤節能

9

T/CESAXXXX—202X

符合下列要求:

a)應支持提供相關接口,應用可實時查詢當前功耗;

b)宜支持多級工作能耗模式設定,可根據業務需求選擇適當的能耗模式,達到節能目的。

9.2.3CPU節能

符合下列要求:

a)應支持智能降頻技術,根據不同的系統工作量自動調節工作電壓、頻率或活躍的核心數量,以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論