




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 Infiniband架構和技術實戰(第二版) Infiniband架構和技術實戰(第二版)已經更新完成,主要更新內容包括InfiniBand架構、安裝、Socket Direct技術等,購買過InfiniBand架構和技術實戰或架構師技術資料全店打包(全)的讀者,可通過在微店留言,提供歷史購買記錄免費獲取新版本。傳統的TCP/IP協議的多層次結構使得復雜的緩沖管理帶來很大的網絡延遲和操作系統的額外開銷,隨著網絡技術的發展,網絡需要一種開放、高帶寬、低延遲、高可靠以及滿足集群無限擴展能力的以交換為核心的體系架構,在這種技術背景下,InfiniBand(簡稱IB)應運而生。根據IB高帶寬、低延時
2、、高可靠以及滿足集群無限擴展能力的特點,IB主要定位于存儲網絡和計算網絡的應用。IB使用RDMA(Remote Direct Memory Access遠程直接內存存取)技術,通過一個虛擬的尋址方案,讓服務器知道和使用其他服務器的部分內存,無需操作系統的內核干預,既直接繼承了總線的高帶寬和低時延,又降低了CPU的處理負擔,這對于像存儲這樣的集群來說很合適。InfiniBand技術特點相比網絡協議(如TCP/IP),IB具有更高的傳輸效率。原因在于許多網絡協議具有轉發損失的數據包的能力,但是由于要不斷地確認與重發,基于這些協議的通信也會因此變慢,極大地影響了性能。需要說明的是,TCP協議是一種被
3、大量使用的傳輸協議,從冰箱到超級計算機等各種設備上都可以看到它的身影,但是使用它必須付出高昂的代價:TCP協議極其復雜、代碼量巨大并且充滿了各種特例,而且它比較難卸載。與之相比,IB使用基于信任的、流控制的機制來確保連接的完整性,數據包極少丟失。使用IB,除非確認接收緩存具備足夠的空間,否則不會傳送數據。接受方在數據傳輸完畢之后,返回信號來標識緩存空間的可用性。通過這種辦法,IB消除了由于原數據包丟失而帶來的重發延遲,從而提升了效率和整體性能。InfiniBand體系架構InfiniBand是一種網絡通信協議,能為網絡中的計算、存儲等節點間提供高帶寬、低時延的可靠傳輸。InfiniBand與傳
4、統的TCP/IP網絡最大的區別就在于前者以進行通信的應用為中心,而后者以網絡中的設備節點為中心。這一點是通過RDMA技術實現的。數據的傳輸任務直接交給InfiniBand設備完成,無需經過網絡節點操作系統的轉發(Kernel Bypass)。這一方面提升了數據的傳輸效率,另一方面提高了CPU的利用率CPU (offload)。InfiniBand也是一個分層協議,覆蓋了OSI網絡模型的14層。1、物理層(Physical Layer)InfiniBand使用串行數據流進行數據傳輸,但目前實際的IB設備中通常包括4條鏈路,其傳輸速率為:2、鏈路層(Link Layer)InfiniBand鏈路層
5、使用Credit Based Flow Control,即發送數據包之前,發送方和接收方需要協商數據量credit,接收方保證有足夠的Buffer,之后傳輸才能進行。InfiniBand鏈路層支持QoS,通過VL(Virtual Lanes)實現。每條物理鏈路最多支持15條標準VL(VL0-14)和1條管理VL(VL15),VL15只用來傳輸管理包,如上文提到的credit協商。通過SL(Server Level)可以定義VL的優先級,從而實現QoS。3、網絡層(Network Layer)InfiniBand網絡層處理跨Subnet的數據傳輸,通過在Global Route Header(G
6、RH)中保存的128位IPv6地址識別。4、傳輸層(Transport Layer)傳輸層負責報文的分發、通道多路復用、基本傳輸服務和處理報文分段的發送、接收和重組。傳輸層的功能是將數據包傳送到各個指定的隊列(QP)中,并指示隊列如何處理該數據包。當消息的數據路徑負載大于路徑的最大傳輸單元(MTU)時,傳輸層負責將消息分割成多個數據包。負責分發報文到期望的目的端,并負責對超過MTU的報文進行分段和重組;主要負責報文的分發、通道多路復用和基本傳輸服務,此外還負責處理報文分段的發送、接收和重組。Infiniband Fabric架構和工作原理IB標準定義了一套用于系統通信的多種設備,包括通道適配器
7、(Channel Adapter)、交換機(Switch)和路由器(Router)。其原因在于IB是以通道Channel為基礎的雙向、串行式傳輸,在連接拓樸中是采用交換、切換式結構(Switched Fabric)。所以會有所謂的IBA交換器(Switch),此外在線路不夠長時可用IBA中繼器(Repeater)進行延伸。而每一個IBA網絡稱為子網(Subnet),每個子網內最高可有65536個節點(Node),IBA Switch、IBARepeater僅適用于Subnet范疇,若要通跨多個IBASubnet就需要用到IBA路由器(Router)或IBA網關器(Gateway)。至于節點部分
8、,Node想與IBA Subnet接軌必須透過配接器(Adapter),若是CPU、內存部分要透過HCA(Host Channel Adapter),若為硬盤、I/O部分則要透過TCA (Target Channel Adapter),之后各部分的銜接稱為聯機(Link)。上述種種構成了一個完整的IBA。通道適配器(Channel Adapter)指節點接入InfiniBand的適配器,可分為Host CA 和 Target CA。用于同其他設備連接,包括主機通道適配器(HCA)用于主控NODE,和目標通道適配器(TCA)用于外設NODE,使IO設備脫離主機而直接置于網絡中,通道適配器實現物理
9、層,鏈路層,網絡層和傳輸層的功能。通道適配器是IB網絡接口的一個重要組成部分,是帶有特定保護特性的可編程DMA器件,允許本地和遠端的DMA操作。交換機(Switch)包括多個端口,用于連接CA,Router或其它Switch。通過Layer 2 Local Route Header(LRH)中的LID進行轉發。是IB結構中的基本組件,負責在IB子網里轉發報文。路由器(Router)也是IB結構中的基本組件,負責在不同的IB子網間轉發報文。Router用于連接不同的Subnet,通過GRH中的IPv6地址進行轉發。轉發時將修改數據包中的LID。每個Subnet都必須有一個Subnet Manag
10、er來管理,例如分配LID,Subnet Manager通過Subnet Management Agent與InfiniBand設備進行交流。OpenFabrics Enterprise Distribution (OFED) / OpenFabrics Software(OFS)是用于RDMA應用程序的開源軟件棧。OFS用于需要高效網絡,存儲連接和并行計算的商業,研究和科學環境。隨著計算向需要極速,大規模可擴展性和實用級可靠性的應用發展,該軟件為高性能計算站點和企業數據中心提供了靈活性和投資保護。OFED包括內核態驅動程序,面向通道的RDMA和發送/接收操作,操作系統的內核旁路,用于并行消息
11、傳遞(MPI)的內核態/用戶態應用程序編程接口(API)和服務,套接字數據交換(如RDS,SDP),NAS和SAN存儲(例如iSER,NFS-RDMA,SRP)和文件系統/數據庫系統。OFED支持的網絡架構包括10G以太網、 iWARP、RoCE(RDMA over Converged Ethernet)和InfiniBand。Mellanox的Socket Direct技術Mellanox公司針對當前服務器中普遍應用的Dual Socket結構提供Socket Direct的方案。其基本原理如圖所示,將PCIe x16的HCA卡分成2張PCIe x8卡(Main Card和Auxilary
12、Card),并連接到不同Socket上,原本需要通過inter-processor bus的通信可以直接通過HCA卡進行,從而減少CPU間的通信,提升系統性能。Mellanox Socket Direct可以把兩張PCIe卡通過一種獨特網絡組網形態,實現把PCIe通道分割在兩張PCIe卡之間網絡技術。PCIe適配器卡為多路服務器帶來的一個關鍵好處是消除了多路CPU之間通過內部總線進行的網絡流量,從而顯著降低了開銷和延遲。下圖顯示了Mellanox Socket Direct適配器的圖片,該方案不但有效地集成了主板上的單個網絡適配器,同時集成了一個輔助的PCIe連接卡和連接二者的SAS線纜。So
13、cket Direct如何工作?當把兩個PCIe插槽直接連接到兩個CPU插槽,并啟用Socket Direct功能時,該方案允許每個CPU通過其專用的PCIe接口直接訪問網絡。測試比較了基于ConnectX 的SocketDirect (安裝在雙路服務器中)和標準PCIe x16100Gb/s適配器卡的性能(僅連接到一個CPU)。測試范圍覆蓋TCP吞吐量、延遲和CPU利用率,以及RDMA基準測試。上圖比較了Socket Direct適配器與標準網絡適配器的平均延遲。該圖顯示,與標準適配器組網相比,使用ocket Direct適配器時,延遲減少了80%。由于CPU傳輸的數據流量套接字都采用了直接路徑來訪問網絡,并且在CPU之間均勻地分布TCP流,所以降低了網絡時延。Mellanox Socket
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 維修電工高級測試題與答案(附解析)
- 集控運行初級工習題+答案(附解析)
- 中藥學課件-清利濕熱藥
- 5月1+x 新居住試題(附答案解析)
- 《CMT卷煙品牌市場推廣策略》課件
- 《PDCA循環原理與應用》課件
- 2025年低噪聲對旋式局部通風機項目合作計劃書
- 《WinCC課件第一章》課件
- 春耕中班活動課件
- 航空公司航空器性能分析考核試卷
- 2025安徽蚌埠市龍子湖區產業發展有限公司招聘22人筆試參考題庫附帶答案詳解
- 償二代下我國財險公司償付能力影響因素的深度剖析與實證研究
- 【MOOC】理解馬克思-南京大學 中國大學慕課MOOC答案
- JGT266-2011 泡沫混凝土標準規范
- 配電室運行維護投標方案(技術標)
- 禾川x3系列伺服說明書
- 常用H型鋼理論重量表格
- 中學自主招生考試物理試題
- 四川大學-劉龍飛-畢業答辯PPT模板
- 工作分析試題及答案
- 突發事件應急演練指南
評論
0/150
提交評論