HCIP-Storage V5.0 學習指導HCIP-Storage V5.0 學習指導_第1頁
HCIP-Storage V5.0 學習指導HCIP-Storage V5.0 學習指導_第2頁
HCIP-Storage V5.0 學習指導HCIP-Storage V5.0 學習指導_第3頁
HCIP-Storage V5.0 學習指導HCIP-Storage V5.0 學習指導_第4頁
HCIP-Storage V5.0 學習指導HCIP-Storage V5.0 學習指導_第5頁
已閱讀5頁,還剩148頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

DOCPROPERTY"Product&ProjectName"DOCPROPERTYDocumentName華為專有和保密信息版權所有?華為技術有限公司非經本公司書面許可,任何單位和個人不得擅自摘抄、復制本文檔內容的部分或全部,并不得以任何形式傳播。和其他華為商標均為華為技術有限公司的商標。本文檔提及的其他所有商標或注冊商標,由各自的所有人擁有。您購買的產品、服務或特性等應受華為公司商業合同和條款的約束,本文檔中描述的全部或部分產品、服務或特性可能不在您的購買或使用范圍之內。除非合同另有約定,華為公司對本文檔內容不做任何明示或暗示的聲明或保證。由于產品版本升級或其他原因,本文檔內容會不定期進行更新。除非另有約定,本文檔僅作為使用指導,本文檔中的所有陳述、信息和建議不構成任何明示或暗示的擔保。華為技術有限公司地址:深圳市龍崗區坂田華為總部辦公樓郵編:518129網址:http://HCIP-Storage學習指導第151頁華為認證體系介紹華為認證是華為公司基于“平臺+生態”戰略,圍繞“云-管-端”協同的新ICT技術架構,打造的ICT技術架構認證、平臺與服務認證、行業ICT認證三類認證,是業界覆蓋ICT(InformationandCommunicationsTechnology信息通信技術)全技術領域的認證體系。

根據ICT從業者的學習和進階需求,華為認證分為工程師級別、高級工程師級別和專家級別三個認證等級。華為認證覆蓋ICT全領域,符合ICT融合的技術趨勢,致力于提供領先的人才培養體系和認證標準,培養數字化時代新型ICT人才,構建良性ICT人才生態。HCIP-Storage(HuaweiCertifiedICTProfessional-Storage,華為認證存儲高級工程師)主要面向華為內部工程師,華為渠道工程師,高校學生,ICT從業人員。HCIP-StorageV5.0認證在內容上涵蓋存儲系統介紹、閃存存儲技術與應用、分布式存儲技術與應用、存儲規劃設計與實施、存儲運維與故障處理等內容。華為認證協助您打開行業之窗,開啟改變之門,屹立在WLAN網絡世界的潮頭浪尖!

存儲系統介紹全閃存存儲介紹產品定位華為存儲可分為全閃存存儲、混合閃存存儲、分布式存儲。全閃存存儲:新一代的鯤鵬硬件平臺和SmartMatrix全互聯、端到端NVME架構,多種高級保護技術,最高容忍控制器8壞7,支持FlashLink、RAID-TP等技術,智能芯片端到端加速?;旌祥W存存儲:全新硬件架構,智能處理器,支持Scale-out靈活擴展,閃存加速,控制器間負載均衡且互為熱備,故障無感知,高可靠性,支持SAN與NAS一體化,資源輕松管理。分布式存儲:提供塊存儲、HDFS、對象和文件存儲服務四合一,支持EC、FlashLink等特性;支持X86與鯤鵬處理器多平臺硬件共存,支持性能加速技術,I/O智能調度等。HuaweiOceanStor全閃存系列存儲系統是華為技術有限公司根據存儲產品應用現狀和存儲技術未來發展趨勢,針對企業大中型數據中心,推出的新一代全閃存高端存儲系統,聚焦于大中型企業核心業務(企業級數據中心、虛擬數據中心以及云數據中心等),能夠滿足大中型數據中心高性能、高可靠、高效率的業務需求。HuaweiOceanStor全閃存系列存儲系統采用全新一代的SmartMatrix智能矩陣架構,該架構能實現業界唯一的控制框2壞1業務不中斷,控制器8壞7業務不中斷,能夠滿足大中型企業核心業務可靠性的要求。同時OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存儲系統由AI智能芯片加持,能夠滿足數據中心大型數據庫OLTP/OLAP(OnlineTransactionProcessing/OnlineAnalyticalProcessing)、高性能計算、數字媒體、Internet運營、集中存儲、備份、容災和數據遷移等不同業務應用的需求。HuaweiOceanStor全閃存系列存儲系統不但能夠為數據中心提供性能出色的存儲服務。同時,提供各種完善的數據備份和容災方案,保證數據業務順利、安全的運行。除此之外,OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存儲系統還提供易于使用的管理方式和方便快捷的本地/遠程維護方式,大大降低了設備管理和維護的成本。軟硬件架構首先,我們介紹全閃存存儲的硬件架構??刂瓶蛞幐瘢弘娫粗С?00~240V交流,240V高壓直流;更換BBU會拔出電源;更換電源不需要拔出BBU接口類型:12GbSAS,32Gb/16Gb/8GbFC,25Gb/10GbEth,40bG/100GbEth,GE卡,Scale-Out接口模塊只能放置在2#槽位體系架構PangeaV6ARM硬件平臺,硬件全自主可控CPU采用海思自研鯤鵬920系列-Kunpeng9202U盤控一體架構支持25*2.5寸控制框、36*PALMNvme控制框Active-Active冗余雙控制器硬盤框控制框采用NVMe框,硬盤框則配套NVMe級聯框。采用SASSSD框,硬盤框則配套SASSSD框。硬盤框和入門級盤控一體框歸作為硬盤使用時按鈕功能無效,不支持按鈕上下電,由引擎下發上下電命令;智能硬盤框內部,有ARMCPU,8G/16GB內存,具有運算能力,能夠實現重構的卸載。接著,我們介紹全閃存存儲的軟件架構。華為全閃存存儲支持多種高級特性,如HyperSnap、HyperMetro、SmartQOS等。通過管理網口/串口可以被SmartKit、eService等維護終端軟件管理。通過iSCSI/FC通道被OceanStorBCManager、UltraPath等應用服務器端軟件管理。OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存儲系統采用SmartMatrix全互聯均衡架構,該架構采用了具有高速、矩陣式全互聯無源背板,可以連接多個控制器節點,同時接口模塊(FC和后端級聯)采用全共享方式接入背板,允許主機從任意端口接入,直達任意控制器進行處理。SmartMatrix全互聯均衡架構允許控制節點之間緊密協調、簡化軟件模型,實現Active-Active細粒度均衡、高效低時延和協同作業。前端全互聯高端使用共享前端接口卡,接口卡是插在控制框上,能被控制框內的四個控制器同時訪問;主機IO到達接口卡后,接口卡直接把IO分發到處理控制器??刂破魅ヂ摽刂瓶騼鹊目刂破魍ㄟ^背板100GbRDMA進行連接(只有5300是40GbRDMA)控制框內控制器,及Scale-Out場景,兩兩控制器之間都有直連鏈路,無需轉發后端全互聯HuaweiOceanStorDorado6800/18500/18800V6支持后端共享卡,同一個智能硬盤框能夠連接到兩個控制框上,同時被8個控制器訪問,再加上軟件持續鏡像技術,就實現了8壞7HuaweiOceanStorDorado5300/5500/5600V6不支持后端共享卡,同時考慮到盤控一體內的盤只能被一個控制框訪問,所以,硬盤框只能被一個控制框訪問,不支持持續鏡像全均衡(A-A)架構實現了整個存儲系統業務壓力的均衡分擔、數據的均衡分布,使得存儲資源規劃變得極為簡單??蛻糁恍枰P注存儲系統需要的總的存儲容量需求和性能需求,無需再關注容量和性能受存儲系統內部分布的影響。LUN無歸屬,均衡打散:LUN的數據,按照64MB的粒度,劃分成Slice。每個Slice按照Hash(LUNID+LBA)的結果,分發到不同的Vnode(一個vnode就是一個CPU)上??梢苑譃椋呵岸司馊A為主機多路徑,不同的Slice,選擇Vnode對應的物理鏈路;前端共享卡,轉發到對應的Vnode。控制器:在沒有主機多路徑及前端共享卡情況,及跨Slice的IO情況下,把IO轉發到對應的Vnode。全局寫緩存均衡數據量是均衡的,數據熱點也是均衡的。全局存儲池均衡盤的利用率均衡,磨損和壽命是均衡的,數據分布是均衡的,熱點數據是均衡的。關鍵技術全閃存存儲的關鍵技術我們從高性能、高可靠、高安全三個維度進行講解。高性能IO傳輸加速技術華為OceanStor全閃存系列支持端到端的NVMe,實現了高性能IO通道,包括:存儲與主機網絡支持NVMeoverFC,后續將擴展到NVMeoverRoCEv2;存儲控制器與硬盤框連接網絡支持NVMeoverRoCEv2;NVMe是一種抽象協議層,旨在提供可靠的NVMe命令和數據傳輸。為了支持數據中心的網絡存儲,通過NVMeoverFabric可以實現NVMe標準在多種網絡上的擴展,達到降低存儲網絡協議棧處理開銷并提供高并發低延時應用,適應SSD介質驅動的存儲架構演進。在端到端的NVMe高速通道上,華為采用自研ASIC接口模塊,自研ASICSSD盤/框設計,從協議解析、IO轉發、業務優先、硬件加速等方面對NVMe進行全面支持,為數據傳輸提供高速通道。自研ASIC接口模塊:TCP/IP協議棧處理直接卸載到接口卡,時延降低50%;芯片直接響應主機,減少I/O交互次數;ASICIO均衡/分發;多隊列輪詢,免鎖。自研ASICSSD盤/框:讀優先級技術,優先執行SSD上的讀請求,及時響應主機;智能硬盤框配備CPU、內存、硬件加速引擎,數據重構卸載到智能硬盤框,降低時延;多隊列輪詢,免鎖。DTOE協議卸載技術傳統網卡:需要CPU處理每個MAC幀,需要CPU處理TCP/IP協議(checksum,擁塞控制等),CPU資源消耗嚴重。TOE:網卡卸載TCP/IP協議,系統僅關注處理真正的TCP數據流。仍然存在高延遲開銷,如內核中斷、鎖、系統調用和線程切換。DTOE優點:每個TCP連接有單獨的硬件發送隊列,避免鎖開銷;用戶態直接操作硬件隊列,避免上下文切換開銷;采用輪訓方式,更低的時延;更好的性能與可靠性。智能多級緩存技術DataIQ識別元數據和數據的冷熱情況,將LUN和POOL的元數據用DRAMCache進行讀加速。文件系統元數據、數據采用兩級Cache加速,最熱部分采用DRAM進行讀加速,次熱部分采用SCMCache進行讀加速,文件系統元數據和數據讀寫時延降低30%。SmartCache技術SmartCache是華為公司OceanStor企業統一存儲系列產品中推出的采用SSD作為介質提供讀緩存的特性,基于華為新一代存儲操作系統OceanStorOS實現。存儲系統通過識別熱點數據,將訪問頻繁的數據存入SmartCache中,以便下次讀訪問可以在SmartCache中命中,從而提升整個系統的性能。元數據時鐘置換調度算法元數據資源統一采用時鐘輪轉緩存算法提升元數據命中率30%。時鐘輪轉緩存淘汰算法原理如下:緩存資源采用循環Buf進行管理,設置兩個Buf游標(分配游標alloc、掃描游標swept);各子系統以Page粒度申請讀緩存插入到alloc位置,并根據命中率設置緩存Page的權重值;后臺回收任務基于緩存池利用率,觸發回收掃描,swept遍歷已申請Page并減其權重值,在Page權重值減為0時,觸發該Page的淘汰。文件系統相關文件系統分發策略:創建目錄時選擇目錄歸屬FSP,文件歸屬默認與目錄保持一致,根目錄歸屬FSP由FSID的HASH值決定。目錄歸屬FSP選擇有兩種模式:親和模式和均衡模式;親和模式即優選客戶端接入控制器上工作的FSP;均衡模式即目錄按DHT均衡分布到所有控制器的FSP上。大目錄熱點文件場景,可選將文件分散到不同vNode的FSP上,提升大目錄性能。文件系統訪問親和模式:主機Client通過IP訪問控制器,其目錄/文件在本控制器親和處理。主機ClientX通過IP地址X與存儲控制器連接,Client創建的目錄/文件在接入控制器的vNode上均衡分布,同時相同IP創建的目錄/文件保持在本vNode的親和性,減少跨vNode或跨控制訪問。不同vNode的容量相差5%以上時,會將新創建目錄均衡到其它vNode上,達成容量均衡。文件系統訪問均衡模式:主機Client通過IP訪問控制器,以目錄為粒度在多個控制器的vNode間均衡,100%發揮存儲性能。主機Client通過IP地址與存儲控制器連接,Client創建的目錄均衡分布在多個vNode上;文件跟著目錄也均衡到對應的vNode上。FlashLink技術相關OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存儲系統采用專為閃存設計的FlashLink?技術,具備高IOPS(Input/OutputOperationsPerSecond)并發能力,同時保持穩定的低時延。FlashLink?技術的核心是通過一系列針對閃存介質的算法優化技術,實現了控制器板載CPU和SSD板載專用CPU的聯動,保障了SSD算法在不同CPU之間的協同,實現系統的高性能和高可靠。FlashLink?技術主要包含以下關鍵技術:眾核技術采用華為自研CPU,在同一個控制器內實現了業界存儲產品最多的CPU數和CPU核數。通過智能眾核技術,實現了存儲設備性能隨著CPU數量和核數線性增加。業務在Vnode內完成處理:主機IO請求根據智能分發算法,分發到VNode,業務會在VNode內完成端到端處理。避免跨CPU節點的通信開銷和跨CPU訪問遠端內存的開銷及CPU間的沖突,實現了性能隨CPU個數線性增長業務分組:VNode內部CPU包含的所有核,每個業務分組對應一個CPU核分組。業務分組內的CPU核只運行對應的業務代碼,不同的業務分組之間不相互干擾。通過業務分組,不同的業務隔離在不同核上運行,避免了不同業務分組對CPU的爭搶和沖突核間免鎖:在業務分組內部,每個核在處理業務邏輯時,使用獨立的數據組織結構,避免同一個業務分組內部的CPU訪問同一個內存結構的沖突,實現CPU核間的免鎖2)大塊順序寫解決問題:SSD盤相對磁盤,Flash顆粒具有擦寫次數的限制。在傳統RAID的覆蓋寫的方式下,如果某塊盤上的數據成為了熱點,那么對這些數據的不斷改寫,就會導致對應的Flash顆粒的擦寫次數很快的耗盡。ROW滿分條大塊順序寫:盤控配合,也是華為OceanStorDoradoV6的一大特點,FlashLink-ROW大塊順序寫機制,是指OceanStorDoradoV6基于自研SSD,控制器感知硬盤內數據布局,從而把多段小塊離散寫,通過聚合成一個連續的大數據塊寫操作,順序寫入SSD。使得RAID5,RAID6和RAID-TP都只用做一次IO操作,不用產生小塊離散寫帶來的多次讀寫操作。在寫性能上RAID5,RAID6和RAID-TP性能相似,不再有明顯差異。3)冷熱數據分流識別系統中的冷熱數據,通過SSD盤和控制器的配合,提升垃圾回收的性能,減少盤內SSD顆粒擦寫次數,延長SSD盤的使用壽命。垃圾回收:在SSD的垃圾回收過程中,對于每次擦除的Block,SSD硬盤期望該Block中所有數據都是無效數據,這樣就可以直接擦除整個Block,而不用搬移有效數據,可以減少系統的寫放大。多流技術:不同修改頻率的數據寫到不同的SSDblock上,減少垃圾回收。數據與元數據分流:元數據修改頻率高,與數據寫到不同的SSD區域。新寫數據與垃圾回收數據分流:垃圾回收的數據與新寫的數據冷熱也不一樣,寫到不同的SSD區域。5)IO優先級調整IO優先級處理,針對不同的IO類型,進行資源優先級匹配,確保不同IO按照相應的SLA得到處理。就如同高速公路,有內外道以及緊急通道之分,確保不同類型的車輛均能快速通過。6)智能盤框采用最新一代自研智能硬盤框,硬盤框內有CPU和內存資源,能夠對盤故障重構等任務進行卸載,減輕控制器的負載,實現在盤故障場景下,重構對業務性能無影響。傳統硬盤框重構過程:RAID6(21+2)為例。數據盤D1故障,控制器就需要把數據盤D2-D21,以及P列讀到控制器,再重新計算出D1??偣残枰獜谋P上讀21個數據塊。再加上重構計算,對控制器CPU開銷較大。智能硬盤框的重構:讀數據的命令分發到智能硬盤框中,智能硬盤框在本地讀數據,并用這些數據計算校驗數據后,只需要將校驗數據傳輸到控制器,大幅節省網絡帶寬。存儲控制器任務卸載分擔:每個智能硬盤框內有2個控制板,內置鯤鵬芯片CPU和內存資源。智能硬盤框從陣列控制器接管一些工作負載,把數據重構的工作卸載到智能硬盤框上實現。7)智能(AI)技術華為OceanStor全閃存系列在智能AI方面也引入了AI智能芯片,我們在存儲設備端放置一顆華為昇騰310AI芯片,它可以實現存儲的自我加速,可以讓存儲具備較高算力。Ascend310是一款高能效、靈活可編程的人工智能處理器,支持多種數據精度,能夠同時支持訓練和推理兩種場景的應用。Ascend310兼顧AI算力提升與能效平衡,能夠實現機器學習,對海量數據模型進行數據分析,如數據冷熱、健康分析、數據關聯等,最終學習建模完成智能分析,實現智能Cache、智能Qos、智能Dedupe等功能。高可靠接著,我們介紹高可靠方面的技術。OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存儲系統對部件失效和設備斷電均有保護措施,同時在降低硬盤故障和數據丟失風險方面也采用了先進的技術,保障了系統的高可靠性。同時存儲系統提供了多種高級數據保護技術,即使在毀滅性的災難下,也能夠保障數據安全,從而使業務正常持續運行。高可靠性架構容忍2控同時失效:全局緩存跨引擎支持3副本技術;雙控同時故障,至少保證1個緩存副本可用;單引擎3副本技術,可容忍2控同時故障。容忍單引擎失效:全局緩存跨引擎支持3副本技術;1個智能框通過后端共享模塊接入8控(2引擎);一個引擎故障,至少保證1個緩存副本可用。容忍7控相繼失效:全局緩存提供持續鏡像技術;8控(2引擎),可容忍7個控制器相繼故障。單控制器故障業務不中斷主機與普通以太端口一樣:單物理端口單物理鏈路;單端口單個Mac地址。內部鏈路虛擬出本地邏輯端口:4個內部鏈路,連接到引擎內每個控制器;每個控制器產生本地邏輯端口。IP地址配置在內部邏輯端口:IP地址配置在控制器的邏輯端口;主機與本地邏輯端口建立IP連接。控制器故障IP地址自動漂移:控制器故障對應邏輯端口Down;IP地址自動漂移到其它控制器的邏輯端口。單鏈路在線升級業務不中斷過程如下:IO處理進程升級時間<1.5s,與主機重新建立連接<3.5s,業務歸零時間<5s。SMB高級特性SMB(ServerMessageBlock)協議是一個網絡文件訪問協議,使本機程序可以訪問局域網內計算機上的文件并請求此計算機的服務。CIFS是SMB的一個公共版本。協議文件句柄用途SMB2.0DurableHandel協議定義用于防鏈路閃斷的文件句柄SMB3.0PersistenceHandel協議定義用于Failover的文件句柄SMB2.0實現Failover原理:將SMB2.0DurableHandel利用SmartMatrix技術將句柄在多控間持續鏡像。當控制器或接口卡故障時,系統進行NAS邏輯端口透明遷移。當主機從新的控制器來恢復SMB2.0業務時,該控制器會從DurableHandel的句柄備份控制器去獲取句柄,從而保證業務連續性。SMB3.0實現Failover原理:將SMB3.0PersisteceHandel利用SmartMatrix技術將句柄在多控間持續鏡像。當控制器或接口卡故障時,系統進行NAS邏輯端口透明遷移。主機基于SMB3.0Failover標準來恢復句柄時,將句柄備份控制器上的PersistenceHandel恢復到指定控制器。漂移組存儲系統上可用于IP漂移的端口組合。漂移組包括系統默認漂移組、VLAN漂移組和用戶自定義漂移組。故障回切支持手工和自動回切,主用端口開始自動回切到恢復正常大概5秒鐘。系統默認漂移組:當LIF故障時,存儲在對端控制器上找到有相同位置、類型(物理/綁定)、速率(GE/10GE)、MTU的端口,并漂移過去。如果這個端口又故障了,存儲會按此原則在另外一個控制器上找到合適的端口。在對稱組網中,只需在創建LIF的時候選擇該漂移組。VLAN漂移組:創建VLAN端口時,系統自動創建VLAN漂移組。當LIF故障時,存儲會漂移到漂移組中有著相同tag和MTU且狀態正常的VLAN端口。當使用VLAN組網時,更容易部署LIF,使用該漂移組。用戶自定義漂移組:當用戶想要自定義故障切換策略時,可以創建該組并指定使用的LIF。當LIF故障時,系統會根據之前指定的組成員找到合適的故障切換目標端口。數據可靠性解決方案目錄元數據雙映射冗余:目錄及inode作為文件系統的核心元數據,在DoradoNAS中采用了邏輯雙映射冗余設計,其中一份損壞時,可以通過邏輯冗余進行恢復快照數據冗余:文件系統數據通過本地快照冗余,在出現數據損壞時,可以拷貝快照中的數據進行恢復存盤數據冗余:存儲于本地盤上的數據通過RAID2.0+冗余存放,多盤相繼或多時故障用戶數據不丟失;數據損壞不超過冗余的情況下,自動基于RAID進行修復站點間數據冗余:通過站點間數據冗余方案,本地站點數據損壞時,可從遠端站點恢復數據到本站點進行修復高安全硬件可信安全啟動安全啟動思想:建立硬件信任根(不可篡改),從信任根開始,一級認證一級,建立信任鏈,把信任擴展到整個系統,實現系統行為可預期。華為OceanStor全閃存系列基于硬件可信根構建安全啟動,保證啟動過程加載的軟件沒有遭到黑客或者惡意軟件篡改。安全啟動的軟件驗證、加載過程:驗證Gurb的簽名公鑰:BootROM驗證Grub簽名公鑰完整性;如果驗證不通過,啟動過程中止;驗證并加載Grub:BootROM驗證Grub簽名;驗證通過后加載Grub;如果驗證不通過,啟動過程中止;驗證軟件簽名證書狀態:Grub根據證書注銷列表驗證軟件簽名證書的狀態。如果證書無效,啟動過程中止;驗證并加載OS:Grub驗證OS的簽名。驗證通過后加載OS;如果驗證不通過,啟動過程中止?;诮巧珯嘞薰芾眍A置默認角色:系統預置系統管理用戶和租戶管理用戶的默認值角色。系統管理用戶默認角色超級管理員super_administrator管理員administrator安全管理員securtity_administratorSAN管理員san_administratorNAS管理員nas_administrator數據保護管理員dataProtection_administrator網絡管理員network_administrator租戶管理用戶角色租戶管理員vStore_adminsitrator租戶數據保護管理員vStore_dataProtection租戶協議管理員vStore_protocol自定義角色:支持用戶依據自己場景自定義角色。用戶自定義角色時可以選擇多個功能,每個功能可以選擇多個對象。自定義角色支持刪除和修改。安全日志審計本地日志審計實現原理:用戶可指定開啟審計的文件系統,以及需要審計的文件操作(如:create/delete/rename/modify/chmod等等);采用審計日志和讀寫IO在同一流程中完成處理,確保IO和日志同時記錄;審計日志會先以元數據格式存放在每個文件系統內置的Audit-Dtree目錄中,保證IO讀寫的性能;日志元數據(*.bin)會在后臺被系統轉換為可讀寫的*.xml格式;Xml格式的審計日志存放在每個租戶vStore的Audit-Log-FS文件系統中;通過異步復制可以將日志審計數據進行容災。應用場景存儲虛擬化應用場景:OceanStorDoradoV6系列存儲系統集成了服務器虛擬化的優化技術,如VAAI(vStorageAPIsforArrayIntegration)、VASA(vStorageAPIsforStorageAwareness)、SRM(SiteRecoveryManager)等,并通過諸多關鍵技術實現虛擬機部署效率、虛擬機承載能力、虛擬機運行效率的提升,以及虛擬環境存儲管理的簡化等,從容應對虛擬環境存儲??鐓f議訪問應用場景:存儲系統支持對一個文件系統同時設置NFS共享和CIFS共享。當系統中既有比如SMB業務,也有NFS業務,OceanStorDorado系列存儲能夠同時支持?;旌祥W存存儲介紹產品定位隨著社會的進步和業務的發展,不斷增加、累積的業務數據對存儲系統提出了更高的要求。但傳統的存儲系統無法跟上數據增長的步伐,出現諸如存儲性能瓶頸;存儲效能不能隨業務靈活擴展;大量多類型設備管理復雜;IT設備更新換代快,舊設備難以有效利用等問題,使存儲系統的運維成本占TCO(TotalCostofOwnership)的比例越來越大。為了解決這些問題,華為推出了華為OceanStor混合閃存系列存儲。存儲系統在實現了文件系統級和塊級數據、存儲協議融合統一的基礎上,以業界領先的性能、多種效率提升機制為支撐,為用戶提供了高性能、全方位的解決方案,使用戶投資收益比最大化,能夠滿足大型數據庫OLTP/OLAP、高性能計算、數字媒體、Internet運營、集中存儲、備份、容災和數據遷移等不同業務應用的需求。華為OceanStor混合閃存系列存儲具有高規格的硬件結構,塊和文件一體化的軟件架構,結合多種高級數據應用和數據保護技術,使存儲系統具有高性能、高可擴展性、高可靠性和高可用性等特點,滿足大中型企業對存儲產品的各種要求。全新架構:最新一代的多核CPU,SmartMatrix3.0架構,可擴展至32控與192PB全閃存容量,性能線性增長。極致融合:支持SAN與NAS一體化,兼容SAN和NAS兩種制式,滿足業務彈性發展,簡化業務部署,提升存儲資源利用率,有效降低TCO。卓越性能:基于閃存優化技術,將SSD發揮極致性能,支持在線重刪壓縮,控制器間負載均衡互為熱備,可靠性更高,資源集中存儲,輕松管理。軟硬件架構硬件架構由于采用了7nm工藝的高性能低功耗ARM處理器,使得存儲PCB板設計更加簡潔,內部空間占用更小,并且ARM相對功耗較低,使得散熱效果更好。因此我們可以進一步壓縮存儲設備的硬件設計,為客戶節省占地、電能,提供更多的擴展接口。芯系列的變化如下:CPU及控制模塊切換為Kunpeng自研架構;板載風扇模塊,BBU模塊更??;可熱拔插接口卡數量增加2片,接口類型暫不支持FCoE及IB);后端硬盤框接口支持SAS3.0以及自研RDMA高速接口。登錄/enterprise網站獲取產品文檔。按照“產品文檔->基本信息->產品描述->硬件架構”的路徑可以查看對應存儲產品的硬件架構,如控制框、硬盤框、接口模塊等等。軟件架構對于混合閃存存儲而言,NAS和SAN的軟件協議棧完全并行,NAS和SAN在資源分配和管理平面上融合。1)SmartMatrix3.0業務全均衡:該架構具備全交換、全虛擬化、全冗余、固有負載均衡等特點,結合端到端數據完整性(End-to-endDataIntegrity)、內存ECC(ErrorCheckingandCorrecting)和傳輸通道CRC(CyclicRedundancyCheck)等技術,提供存儲系統性能線性增長、最大的擴展性、7×24小時高可用性以及高系統安全性,能全面滿足大中型數據中心關鍵業務的需求。2)前后端全共享架構:前后端全共享卡,配合SmartMatrix特性,可平衡多控之間的數據流動,壓力均衡。新一代高端硬件的接口卡是全共享的,取消了上一代的大卡設計,部署更靈活方便,帶寬更高。4控全互聯:FC前端卡、后端卡、控制器全互聯,前端后端IO均不轉發。單鏈路升級:主機連接單個控制器場景下,控制器升級接口卡自動轉發IO到其他控制器,主機無感知。復位不斷連接:控制器復位/故障時,接口卡自動轉發IO到其他控制器,主機無感知。多控冗余:控制器支持4壞3。新一代保電技術:控制器內置BBU,控制器拔出仍可保電刷Cache到系統盤,多控同時拔出數據不丟失。3)控制器故障無感知。端口:每個前端端口統一為主機提供1個FC會話,主機從每個存儲端口只看到1個FC會話和WWN。芯片:4個內部鏈路,連接到引擎內每個控制器,一個引擎內每個控制器都與主機建立本控的FC會話。前端共享卡,它用以實現前端鏈路和存儲所有控制器的全互聯,保障任意控制器故障時前端鏈路不中斷,控制器故障對主機“透明”。我們一起看前端共享卡是如何工作的:主機上看:每個前端端口統一為主機提供1個FC會話,主機從每個存儲端口只看到1個FC會話和WWN。陣列內部看:4個內部鏈路,連接到引擎內每個控制器;一個引擎內每個控制器都與主機建立本控的FC會話??刂破鞴收希阂鎯热我豢刂破鞴收?,故障控制器的I/O被前端接口芯片重定向到其它控制器;主機無感知,FC鏈路一直保持up,業務正常運行,無任何告警/事件。關鍵技術華為混合閃存存儲支持SAN與NAS并行訪問,為不同業務提供最優訪問路徑,訪問性能最優。塊和文件一體化,無需額外購買NAS網關,降低購置成本??梢詰迷谡⒔煌?、金融、運營商等行業,諸如數據庫、視頻監控、VDI虛擬桌面等場景。SAN及NAS智能分級技術在整個數據的生命中期中,會逐漸從熱數據變為冷數據,如果變冷的數據長期占用Cache或者SSD這類快速的設備,不僅會浪費寶貴的資源,還會影響存儲系統長期的性能表現。另一方面如果因為特定事件導致一部分冷數據變熱,如果這些數據還存儲在類似磁帶、NLSAS盤這種慢速介質上,那業務的反應速度就會一直很慢,嚴重影響辦公效率。為了解決這種數據冷熱遷移的問題,存儲可以通過智能分級技術來做到后臺靈活調配數據存儲介質。智能分級技術需要部署在有不同介質類型的設備上,數據被實時監控,長期不被訪問的數據會被標記成為冷數據,逐漸從高性能介質轉移到慢速介質,保證設備不會越用越慢當冷數據被激活后也可以快速移動到快速介質是上,讓整個系統性能保持平穩,不會因為數據量的增加而變得越來越慢。遷移策略可以手工可以自動,遷移粒度支持LUN和NAS,給客戶一個高性價比的存儲設備。RAID2.0+軟件架構底層介質虛擬化+上層資源虛擬化,同時解決數據快速重構問題和資源的智能分配問題。數據快速重構:縮短數據重構時間,從10小時到30分鐘,使重構速度提升20倍,大幅降低重構過程對業務的影響和多盤失效的概率。存儲池內所有硬盤參與重構,僅重構業務數據;由傳統RAID多對一的重構模式轉變為多對多快速重構模式。自研芯片技術前端傳輸,智能網卡芯片支持業界最快的32GFC、100G以太協議處理實現硬件卸載,在接口卡實現原來CPU所做的協議解析,減輕CPU負載,提升傳輸性能。前端訪問時延從160us降到80us;解析得到的數據會與CPU交互,完成高級特性的處理,如流控等??刂破餍酒H鵬920是首款7nmARMCPU,同時它不僅是一顆CPU,還集成南橋、網卡、SAS控制器三顆芯片。SSD存儲芯片,將核心FTL算法內置在自研芯片中,芯片直接確認讀寫位置等信息,寫時延從40us降到20us;存儲系統在整個運行周期內都需要管控面的干預,使用到的就是管理芯片。管理芯片,集成華為10多年積累的故障基因庫,一旦發現故障,管理芯片通過故障基因庫快速匹配故障模型,定位問題給出解決方案,故障定位準確率達到93%。RDMAScale-out4控擴展到8控,無需交換機,組網簡潔引擎間使用100GRDMA傳輸數據邏輯通訊采用VLAN分割,保障IO面和管控面的數據安全可靠加密硬盤技術SED自加密盤采用AES256加密算法,保證存儲在盤上的數據是加密的,并且保證性能無影響。InternalKeyManager存儲系統內嵌的密鑰管理應用,在OceanStor18000/18000FV5支持采用TPM進行密鑰保護。ExternalKeyManager采用KMIP+TLS的標準協議。在整個數據中心的密鑰管理僅用于存儲系統的場景下,建議選擇InternalKeyManager。通過配置SED加密硬盤和InternalKeyManager(OceanStorV5自帶密管系統)或者ExternalKeyManager(外部配置獨立的密管系統),和存儲系統配合完成數據靜態加密,從而保證數據的安全性。算法原理AES算法基于排列和置換運算。AES使用幾種不同的方法來執行排列和置換運算。AES是一個迭代的、對稱密鑰分組的密碼,它可以使用128、192和256位密鑰,并且用128位(16字節)分組加密和解密數據。與公共密鑰密碼使用密鑰對不同,對稱密鑰密碼使用相同的密鑰加密和解密數據。通過分組密碼返回的加密數據的位數與輸入數據相同。迭代加密使用一個循環結構,在該循環中重復置換和替換輸入數據。InternalKeyManager易部署、易配置、易管理;無需再獨立部署一套密管系統。高級特性塊服務特性、文件服務特性支持多種高級特性,具體情況見教材列出相應特性。應用場景多站點容災應用場景在兩地三中心的級聯架構和并行架構多站點容災應用場景中可使用混合閃存存儲。方案亮點在于:高中低端陣列復制技術互通;秒級異步復制RPO,分鐘級RTO;環形3DC。支持容災中心故障后,剩余站點自動建立復制關系,提供持續數據保護。Standby復制激活后,數據增量復制,RTO不變。支持單站點配置環形3DC*,簡化管理。存儲分層分級應用場景不同的業務應用對性能要求和可靠性有著不一樣的要求。比如CRM系統、賬單交易系統屬于熱數據應用,備份就屬于冷數據的應用場景。可以通過華為全閃存存儲、混合閃存存儲、分布式存儲等進行整合、分層,并具備不同SLA能力等級的存儲提供支撐。分布式存儲介紹產品定位華為分布式存儲系列專為海量數據場景設計,為虛擬化/云資源池、關鍵業務數據庫、大數據分析、高性能計算(HPC)、視頻、內容存儲/備份歸檔等類型應用提供多樣性存儲服務,幫助企業釋放海量數據價值。智能分布式存儲:OceanStor100D是一款可大規模橫向擴展的全自研智能分布式存儲產品。一套集群可為上層應用提供塊存儲、大數據存儲、對象文件存儲等工業界標準接口,消除煙囪式存儲系統構建導致的運營復雜問題,幫助企業實現復雜業務承載更穩、多樣性數據使用效率更高、海量數據儲存成本更優。塊存儲:支持SCSI和iSCSI接口,為上層應用提供按需獲取、彈性擴展的海量存儲池,大幅提升應用環境準備效率,是私有云、容器、虛擬化及數據庫應用的理想存儲平臺。大數據存儲:提供基于原生HDFS的大數據存算分離方案,實現存儲與計算資源按需配置,提供一致用戶體驗的同時,助您降低總擁有成本;支持與原有計算存儲一體化架構共存。廣泛應用于金融大數據、互聯網日志留存大數據、政務大數據和平安城市大數據等場景。對象存儲:最大支持單桶1000億對象承載且性能不降,消除大型應用分桶改造麻煩。廣泛應用于金融電子票據影像和雙錄(錄音/錄像)、醫療影像、政企電子文檔和車聯網場景生產存儲、備份或歸檔。橫向擴展文件存儲:華為OceanStor9000V5橫向擴展文件存儲采用全對稱分布式架構,以其業界領先的卓越性能、大規模橫向擴展能力和超大單一文件系統為用戶提供非結構化數據共享資源存儲,是面向海量非結構化數據存儲應用的橫向擴展文件存儲系統。采用華為OceanStor9000V5可提高IT系統存儲效率,簡化工作負載及遷移流程,應對非結構化數據的增長和演變。軟硬件架構首先,我們介紹分布式存儲的硬件架構。當使用OceanStor100D的標準硬件時,硬件配置如下表所示。硬件類型硬件型號配置適用的存儲服務類型機柜標準IT機柜提供42U內部安裝空間-存儲節點P1002U12盤位節點,直通機型,CPU采用2顆鯤鵬920(48core@2.6GHz)融合、對象、大數據、塊說明:融合是指一個局點同時部署多個存儲服務的場景。2U12盤位節點,EXP機型,CPU采用2顆鯤鵬920(48core@2.6GHz)2U25盤位節點,EXP機型,CPU采用2顆鯤鵬920(48core@2.6GHz)塊C1004U36盤位節點,直通機型,CPU采用2顆鯤鵬920(48core@2.6GHz)融合、對象、大數據、塊F1002U12盤位節點,EXP機型,全NVMe閃存,CPU采用2顆鯤鵬920(48core@2.6GHz)塊P1102U12盤位節點,CPU采用X86處理器融合、對象、大數據、塊2U25盤位節點,CPU采用X86處理器塊C1104U36盤位節點,CPU采用X86處理器融合、對象、大數據、塊F1102U12盤位節點,全NVMe閃存,CPU采用X86處理器2U24盤位節點,全NVMe閃存,CPU采用X86處理器塊網絡設備S5731-H48T4XCGE交換機,作為BMC/管理交換機,提供4個10GESFP+以太網光接口,以及48個10/100/1000BASE-T以太網電接口。-S5720-56C-EI-ACGE交換機,作為BMC/管理交換機,提供4個10GESFP+以太網光接口,以及48個10/100/1000BASE-T以太網電接口。-S5331-H48T4XCGE交換機,作為BMC/管理交換機,提供4個10GESFP+以太網光接口,以及48個10/100/1000BASE-T以太網電接口。-S5320-56C-EI-ACGE交換機,作為BMC/管理交換機,提供4個10GESFP+以太網光接口,以及48個10/100/1000BASE-T以太網電接口。-CE6881-48S6CQ10GE交換機,作為存儲交換機,提供48個10GESFP+以太網光接口,以及6個40GEQSFP28以太網光接口。-CE6855-48S6Q-HI10GE交換機,作為存儲交換機,提供48個10GESFP+以太網光接口,以及6個40GEQSFP+以太網光接口。-CE6857-48S6CQ-EI10GE交換機,作為存儲交換機,提供48個10GESFP+以太網光接口,以及6個40GE/100GEQSFP28以太網光接口。-CE6863-48S6CQ25GE交換機,作為存儲交換機,提供48個10GE/25GESFP28以太網光接口,以及6個40GE/100GEQSFP28以太網光接口。-CE6865-48S8CQ-EI25GE交換機,作為存儲交換機,提供48個25GESFP28以太網光接口和8個100GEQSFP28以太網光接口。-CE8850-64CQ-EI100GE交換機,作為匯聚交換機,提供2個10GESFP+以太網光接口,以及64個100GEQSFP28以太網光接口。-SB7800100Gbit/sIB交換機,作為存儲交換機,提供36個100Gbit/sQSFP28光接口。-KVM(Keyboard,Video,andMouse)提供8路鍵盤、鼠標和視頻端口。-當使用橫向擴展文件存儲時,OceanStor9000的硬件系統主要由存儲節點、網絡設備、KVM和短信調制解調器組成。OceanStor9000的硬件組成如下表所示。硬件類型可選型號說明機柜(推薦配置)FR42612L提供42U內部安裝空間存儲節點P12E2U12盤節點(配置舉例:12SATA硬盤,或1SSD+11SATA硬盤)P25E性能更強的2U25盤節點(配置舉例:1SSD+24SAS硬盤)P36E性能更強的4U36盤節點(配置舉例:1SSD+35SATA硬盤)C36E性能更強的4U36盤節點(配置舉例:36SATA硬盤)P122U12盤節點(配置舉例:12SATA硬盤,或1SSD+11SATA硬盤)P252U25盤節點(配置舉例:1SSD+24SAS硬盤)P364U36盤節點(配置舉例:1SSD+35SATA硬盤)C364U36盤節點(配置舉例:36SATA硬盤)C724U72盤節點(配置舉例:72SATA硬盤)網絡設備CE6810-48S4Q-EI/CE6810-24S2Q-LI10GE以太網交換機S5700-52C-SI/S5352C-SIGE以太網交換機SX6018IB(InfiniBand)交換機8口KVM(Keyboard,Video,andMouse)提供8路鍵盤、鼠標和視頻端口調制解調器用于提供告警的短信通知功能登錄/enterprise網站獲取產品文檔。按照“產品文檔->基本信息->產品描述->硬件架構”的路徑可以查看對應存儲產品的硬件架構。接著,我們介紹下分布式存儲的軟件架構。以HuaweiOceanStor100D為例,對其軟件架構的關鍵概念解釋如下:Protocol:存儲的協議層,塊支持iscsi協議與VSC本地掛載訪問,對象支持S3/swift訪問,大數據支持HDFS訪問,文件支持NFS訪問。VBS:塊存儲的塊訪問接入層,用戶IO通過iSCSI或VSC把IO下發到VBS。EDS-B:提供具有企業特性的塊服務,接收并處理從VBS轉發過來的IO。EDS-F:提供大數據服務。OBSService:提供對象服務DP:提供數據保護能力。Persistencelayer:提供持久化存儲能力,提供EC與多副本能力通過plogclient提供plog的appendonly訪問能力。Infrastructure:提供存儲使用的基礎設施能力,如調度,內存分配等。OAM:存儲的管理面,提供部署,升級,擴容,監控告警等功能。它支持豐富的企業級特性,塊服務秒級異步復制、雙活。架構微服務化,塊服務/HDFS服務/對象服務可以共用Persistence服務。OceanStor100D的塊服務,提供SCSI、iSCSI等標準訪問接口協議,支持廣泛的虛擬化平臺及數據庫應用,提供高性能與高擴展能力,滿足虛擬化、云資源池及數據庫等場景的SAN存儲需求。提供Active-ActiveHyperMetro(雙活)、HyperReplication(遠程復制)、HyperSnap(快照)、SmartQoS(智能服務質量控制)、SmartDedupe(重復數據刪除)和SmartCompression(數據壓縮)等關鍵特性。OceanStor100D的對象服務,提供對象服務標準API,支持主流云計算生態,滿足內容存儲、云備份、云歸檔及公有云存儲服務運營場景需求。提供HyperReplication(遠程復制)、對象/文件互通、SmartDedupe(重復數據刪除)、SmartQuota(配額)和SmartQoS(服務質量)等關鍵特性。OceanStor100D的大數據服務支持原生HDFS接口,不需要安裝獨立插件,在大數據分析場景提供大數據云化計算存儲分離解決方案,滿足海量數據高效處理同時,幫助用戶實現真正資源按需要部署使用,降低TCO。提供SmartTier(分級)、SmartQuota(配額)和回收站等關鍵特性。關鍵技術DHT技術FusionStorage塊存儲采用DHT(DistributeHashTable,分布式哈希表)路由數據算法。每個存儲節點負責存儲一小部分數據,基于DHT實現整個系統數據的尋址和存儲。相比DHT路由算法,傳統存儲一般采用集中式元數據管理方式,元數據中會記錄所有LUN中不同偏移量的數據在硬盤中的分布,例如LUN1+LBA1地址起始的4KB長度的數據分布在第32塊硬盤的LBA2上。每次IO操作都需要去查詢元數據服務,隨著系統規模逐漸變大,元數據的容量也會越來越大,系統所能提供的并發操作能力將受限于元數據服務所在節點的能力,元數據服務將會成為系統的性能瓶頸。不同與傳統的集中式元數據管理,FusionStorage塊存儲采用DHT進行數據尋址,具體的算法如下圖:FusionStorage塊存儲將哈希空間設置為2^32,并將該哈??臻g劃分為N等份,每1等份是1個分區(Partition),這N等份按照硬盤數量進行均分。例如:系統N默認為3600,假設當前系統有36塊硬盤,則每塊硬盤承載100個分區。上述“分區-硬盤”的映射關系在系統初始化時會分配好,后續會隨著系統中硬盤數量的變化會進行調整。該映射表所需要的空間很小,FusionStorage塊存儲系統中的節點會在內存中保存該映射關系,用于進行快速路由,可見,FusionStorage塊存儲的路由機制不同于傳統陣列,并沒有集中的元數據管理,也就不存在元數據服務成為系統的性能瓶頸。舉例說明:應用需要訪問LUN1+LBA1地址起始的4KB長度的數據,首先構造key=LUN1+LBA1/1M,對該key進行HASH計算得到哈希值,并對N取模,得到partition號,根據內存中記錄的“分區-硬盤“映射表可得知數據歸屬的硬盤。同時,FusionStorage塊存儲采用的DHT算法具有以下特點:均衡性:數據能夠盡可能分布到所有的節點中,這樣可以使得所有節點負載均衡。單調性:當有新節點加入系統中,系統會重新做數據分配,數據遷移僅涉及新增節點,現有節點上的數據不需要做很大調整。Range切分與WAL聚合技術要存儲的數據以Range方式打散存儲在不同的Node上。WAL:WriteAheadLog,數據持久化之前中間的一個存放技術,采用WAL將數據存放好后就可以直接返回給上層應用表示數據寫成功。WAL的中心思想是對數據文件的修改(它們是表和索引的載體)必須是只能發生在這些修改已經記錄到日志之后,也就是說,在描述這些變化的日志記錄刷新到永久存儲器之后。多NameNode并發NameNode是HDFS的元數據請求處理節點,DataNode是HDFS的數據請求處理節點。傳統的HDFSNameNode模型:僅有一個Active的NameNode提供元數據服務,ActiveNameNode和StandbyNameNode之間不是實時一致的,有同步周期。當前Active的NameNode異常宕機之后,在切換到新的NameNode,新Namenode完成日志加載之前,無法提供元數據服務,最長可能達到小時級。單個Active的NameNode可支持的文件個數受制于單個節點的內存,只能支持到1億。單個命名空間大壓力下面的元數據并發操作因CPU和內存資源消耗多,導致性能較差。華為的HDFS多NameNode并發具有以下特點:多個Active的NameNode提供元數據服務,多節點間數據實時一致。避免傳統HDFSNameNode切換導致的元數據服務中斷。多個Active的NameNode支持的文件個數不再受制于單個節點的內存。多目錄元數據操作多節點全并發。AppendOnlyPlog技術OceanStor100D可同時支持HDD和SSD兩種類型的介質,兩種介質的帶寬、IOPS、時延等技術參數存在非常明顯的差異,所適合的IOpattern也差異很大。為解決介質之間的差異,并實現統一的管理,OceanStor100D采用了Appendonly的Plog技術。AppendOnlyPlog技術可面向介質提供最佳的下盤性能模型,先將小IO聚合成大塊,再將大塊IO寫盤方式改為順序追加寫下盤方式,這種寫盤方式符合盤本身的特點。EC智能聚合技術基于追加寫的智能聚合EC,任意時刻都能保證EC滿分條寫入,減少數倍的讀寫網絡放大和讀寫磁盤放大。一次性完成數據聚合,更低的CPU算力開銷,可提供更極致的峰值性能。多級緩存技術寫緩存示意圖如下:詳細步驟解釋:Step1:數據寫入基于RAM的WriteCache(MemoryWriteCache)。Step2:寫入基于SSD緩盤的WAL日志區(如果是大IO會直接寫HDD),返回主機寫操作完成。Step3:當內存寫緩存達到一定水位,數據開始往下刷盤。Step4:對于大IO,直接寫入HDD盤,小IO會先寫入本節點的SSD緩存(SSDWriteCache)等待聚合成大IO后再寫入HDD。說明:Step1中如果寫入數據比較大(超過512KB)就直接進入Step4寫入HDD。讀緩存示意圖如下:詳細步驟解釋:Step1:先從MemoryWriteCache中讀取,命中則返回,沒有命中則進入Step2。Step2:從MemoryReadCache中讀取,命中則返回,沒有命中則進入Step3。Step3:從SSDWriteCache中讀取,命中則返回,沒有命中則進入Step4。Step4:從SSDReadCache中讀取,命中則返回,沒有命中則進入Step5。Step5:最終從HDD上讀取。說明:基于內存的讀緩存(MemoryReadCache)會緩存預取的數據如順序流?;赟SD緩存盤的讀緩存(SSDReadCache)會緩存讀過程中識別的熱點數據。元數據分布式訪問訪問過程如下圖所示:關鍵概念解釋:CA:ClientAgentMDS:MetadataServiceDS:DataService過程解釋如下:①客戶端發起訪問,首先從MDS(元數據服務)根路徑開始查找元數據②根目錄告知客戶端需要到另一個MDS查詢③同一MDS繼續查找④需要到另一個MDS查詢⑤獲得元數據后,根據元數據所指位置讀取數據智能負載均衡技術它的原理是基于域名(Active-Standby模式)的訪問。支持分區,每個分區可以設定獨立的域名和負載均衡策略。訪問系統一級/二級域名,如:解析域名,并基于負載均衡策略返回一個IP地址基于IP地址進行業務訪問單一文件系統資源集中管理在一個統一的資源池中,可以很容易地共享,訪問單一文件系統時,用戶不需要關注特定的數據存儲位置。系統提供了一個統一的文件系統,用于訪問所有可用空間。在單一文件系統中,文件集合以目錄方式呈現。在系統啟動時自動創建一個統一的文件系統。應用場景私有云、虛擬化為私有云和虛擬化提供按需獲取、彈性擴展的海量存儲資源池,基于通用服務器大幅提升存儲資源的部署、擴展和運維效率。例如應用于金融互聯網渠道接入云、開發測試云,運營商BOM域業務云化、B2B云資源池、政務云、平安城市云等。關鍵業務數據庫通過分布式Active-Active雙活、穩定低時延等企業級能力,保障OLAP或OLTP類關鍵業務數據庫、數據倉庫高效穩定運行。大數據分析大數據計算存儲分離解決方案可整合傳統數據孤島,構建統一的企業大數據資源池,結合大比例EC、存儲和計算分離按需部署和擴容等企業級能力,實現大數據業務效率提升及TCO降低。例如應用于金融大數據分析、運營商日志留存大數據、政務大數據和平安城市大數據等。內容存儲、備份歸檔高性能、高可靠的企業級對象存儲資源池可滿足互聯網數據、在線音頻/視頻、企業網盤等實時在線業務吞吐量大、熱點數據頻繁訪問的業務需求,以及長期保存、在線訪問需求。例如應用于金融電子票據影像、雙錄(錄音/錄像),醫療影像、政企電子文檔和車聯網場景存儲、備份或歸檔。如BSS、MSS、OSS、VAS等場景可以使用華為OceanStor100D分布式存儲塊存儲服務。對象存儲服務應用場景也可以使用,方式優勢體現在以下幾個方面:穩定低時延,保障客戶訪問流程:穩定的時延<80ms,滿足視頻連續寫入時延穩定性要求,以及提升終端客戶訪問體驗;高并發連接:支持數百萬路視頻連接,保持性能穩定無波動;按需使用:可以隨時根據業務增長量,動態按需使用存儲,按需付費,降低擁有成本。

超融合存儲介紹產品定位傳統的IT架構,大多數都是小機+FC存儲的方式,基于這種架構的IT基礎設施,不僅價格和運維成本高企,對于大型互聯網公司來說,其擴展能力明顯不足,無法滿足數據的爆發式增長,比如Facebook每天能增加20億張照片,需要快速存儲處理這些數據。Web-Scale的概念是由Gartner提出的一個概念,用于描述來自互聯網巨頭,如Facebook,谷歌,LinkedIn等公司,Web-Scale通過計算虛擬化和分布式存儲能力,來應對業務和數據的爆發式增長,對于企業來說,無法使用web-scale的架構來構建自己的IT系統,因為沒有足夠的IT能力來支撐分布式存儲軟件的應用和龐大的IT系統管理超融合架構就是一個小型版的Web-Scale架構,進一步優化,使之能夠通過一體化的方式架構,統一的運維來避免web-scale的復雜性,同時有具備web-scale架構的靈活性和擴展性。那什么是超融合呢?我們來看下業界的定義。超融合基礎架構(Hyper-ConvergedInfrastructure,或簡稱“HCI”)是指在同一套單元設備中不僅僅具備計算、網絡、存儲和服務器虛擬化等資源和技術,而且還包括備份軟件、快照技術、重復數據刪除、在線數據壓縮等元素,而多套單元設備可以通過網絡聚合起來,實現模塊化的無縫橫向擴展,形成統一的資源池。HCI是實現“軟件定義數據中心”(SDDC)的終極技術途徑。HCI類似Google、Facebook后臺的大規?;A架構模式,可以為數據中心帶來最優的效率、靈活性、規模、成本和數據保護。且同時支持ARM&X86硬件平臺。NUTANIX:超融合架構(Hyper-ConvergedInfrastructure簡稱“HCI”)是指在同一套單元設備中不僅僅具備計算、網絡、存儲和服務器虛擬化等資源和技術,而且還包括備份軟件、快照技術、重復數據刪除、在線數據壓縮等元素,而多套單元設備可以通過網絡聚合起來,實現模塊化的無縫橫向擴展,形成統一的資源池。HCI是實現“軟件定義數據中心”的終極技術途徑。Gartner:HCI是一種以軟件為中心的體系結構,將計算、存儲、網絡和虛擬化資源(以及可能的其他技術)緊密集成在單一的供應商提供的一臺硬件設備中。IDC:超融合系統是一種新興的集成系統,其本身將核心存儲、計算和存儲網絡功能整合到單一的軟件解決方案或設備中。簡要理解:虛擬化+軟件定義的分布式存儲是HCI的最小子集。那什么是華為的超融合呢?它又具有什么的優勢和特點呢?華為超融合基礎設施是基于超融合架構的IT基礎設施平臺。融合計算、存儲為一體,并預集成分布式存儲引擎、虛擬化和云管理軟件,資源可按需調配、線性擴展。主要應用于數據庫、桌面云、容器、虛擬化等多種混合負載的場景。預集成華為FusionCube依托華為高效的端對端交付能力,能從用戶報價開始,根據用戶業務需求,直接交付給用戶開箱即用的產品,極大地簡化了用戶的安裝、調測時間,從幾周甚至數月的調測時間縮減到幾個小時之內。預集成包括如下內容:硬件預安裝:設備上柜、線纜預綁(僅E9000支持)。軟件預安裝:BIOS和系統盤RAID設置、平臺管理軟件FusionCubeCenter軟件安裝、存儲軟件(FusionStorage塊存儲)預安裝。帶柜運輸:立柜運輸(僅E9000支持)。兼容多種虛擬化平臺兼容多種主流虛擬化平臺,例如VMwarevSphere。FusionCube支持為虛擬化平臺提供統一的計算、存儲和網絡資源。集成虛擬化平臺資源監控功能,一個管理界面即可提供整個系統的日常運維。計算/存儲/網絡融合FusionCube不再是單獨的計算、網絡、存儲設備,而是預置集成的一體化設備,實現了計算、存儲和網絡資源的融合,無需額外配置存儲、網絡等資源。在計算、存儲融合方面,通過在計算刀片中部署分布式存儲引擎,減少了數據的訪問時延,提升整體訪問效率。在計算、網絡融合方面,通過網絡自動部署,用戶無需關心網絡具體配置,系統可自動配置網絡資源,并實現與計算、存儲資源的聯動。分布式塊存儲FusionCube內置FusionStorage塊存儲為業務提供存儲服務,FusionStorage塊存儲是一種分布式存儲系統,采用獨特的并行架構、創新的緩存算法、自適應的數據分布算法,既消除了熱點也提高了性能,并且能夠以超快的重建時間實現自動化自修復,提供卓越的可用性和可靠性。1)線性擴展和彈性:FusionStorage塊存儲采用全分布式DHT架構,將所有元數據按規則分布在各節點,避免了元數據瓶頸,支持線性擴展。FusionStorage塊存儲采用了獨特的數據分塊切片技術,以及基于DHTHash的數據路由算法,可以將卷的數據均勻的分散到較大的資源池故障域范圍內,使得每個卷可以獲得更大的IOPS和MBPS性能,也使得每個硬件資源的負載相對均衡。2)高性能:FusionStorage塊存儲免鎖化調度的IO軟件子系統,徹底解決了分布式鎖沖突,使得IO路徑上無需進行任何鎖操作和元數據查詢,IO路徑短、時延低;分布式的無狀態機頭,可以充分發揮各個硬件節點的能力,大大提升了系統的并發IOPS和并發MBPS。同時FusionStorage塊存儲分布式的SSDcache技術,配合大容量的SAS/SATA盤做主存,使得系統的性能可以具備SSD的性能和SAS/SATA的容量。3)高可靠性:FusionStorage塊存儲支持多種數據冗余保護機制,如2副本、3副本等;在此基礎上,FusionStorage塊存儲支持設置靈活的數據可靠性策略,允許將不同的副本放在不同的服務器上,保證在服務器故障的情況下,數據仍然不丟失、仍然可訪問。同時FusionStorage塊存儲采用對有效數據分片進行數據的冗余保護,在硬盤、服務器故障的時候,能夠對有效數據進行并行重建,1TB硬盤的重建時間小于30分鐘,大大增強系統的可靠性。4)豐富的存儲高級功能:精簡配置,當用戶對卷進行寫操作時才分配實際物理空間,為用戶提供比物理存儲資源更多的虛擬存儲資源。卷快照,將用戶的邏輯卷數據在某個時間點的狀態保存下來,作為快照點;快照不限次數且性能不下降。鏈接克隆,基于增量快照提供鏈接克隆,一個快照可以創建出多個克隆卷,各個克隆卷剛創建出來時的數據內容與快照中的數據內容一致,后續對于克隆卷的修改不會影響到原始的快照和其他克隆卷。自動化部署FusionCube采用預集成方式自動化部署系統,極大降低現場操作的復雜性,提升部署效率和質量:通過預安裝、預集成、預驗證,降低用戶安裝、部署的復雜度,減少用戶安裝部署時間;支持設備上電自動發現,以及向導式的系統初始化配置,實現快速完成系統計算、存儲和網絡資源初始化,大幅縮短業務上線時間;提供自動化安裝部署工具,實現現場虛擬化平臺快速切換和版本升級。統一運維管理FusionCube支持服務器、交換機等硬件設備的統一管理,也提供計算、存儲和網絡等資源的統一管理,大幅提高運維效率和服務質量:通過一個統一的管理界面提供機箱、服務器、交換機等硬件設備的日常維護,實時掌控系統中計算、存儲和網絡資源的運行狀態,方便維護人員使用;自動監控IT資源和系統運行狀態,對系統故障和潛在風險實時報警,告警可以通過郵件的方式通知維護人員;支持快速自動完成新資源的擴容,自動發現待擴容設備,通過向導式的擴容配置,快速完成資源擴容。典型應用場景服務器虛擬化:直接提供集成的FusionCube虛擬化基礎設施,不攜帶任何其他應用軟件。桌面云:在虛擬化基礎設施上運行VDI(VirtualDesktopInfrastructure)虛擬桌面或應用虛擬化,提供桌面云服務。企業OA:在虛擬化基礎設施上運行企業OA的服務端應用,如微軟Exchange、Sharepoint應用。軟硬件架構首先介紹下超融合存儲的硬件架構。硬件形態可以分為刀片服務器、高密服務器、機架服務器。刀片服務器:E9000是華為公司研發的一款機箱產品,提供12U空間,可安裝華為E9000系列計算節點、業務處理節點、存儲節點以及相應的資源擴展節點。主要特性如下:1)可配置8個橫插的全寬計算節點或者16個半寬計算節點,支持槽位拆分。2)半寬槽位散熱能力850W。3)全寬槽位散熱能力1700W。4)半寬槽位最大支持2P+24DIMM的計算節點。5)全寬槽位最大支持4P+48DIMM的計算節點。6)單機箱支持32CPU計算密度,最大24TB內存。7)背板最大交換容量5.76Tbps。8)4個(2對)交換槽位,支持Eth/IB等多種交換協議類型,支持直出I/O接口。支持多種類型的刀片:CH121V32P計算性刀片、CH222V32P計算存儲刀片、CH220V32P計算IO擴展刀片、CH225V32P計算存儲刀片、CH242V34P計算刀片以及CH121V52P計算性刀片、CH225V52P計算存儲刀片、CH242V54P計算刀片。高密服務器:支持X6000和X6800兩種高密服務器平臺,其中X6800平臺的存儲計算密度高,4U4節點,節點可支持2塊系統盤和10塊3.5寸大盤,后置PCIE槽位2*8X槽位;X6000平臺計算密度高,2U4節點,但節點只支持6*2.5寸盤(含系統盤),單節點磁盤容量小,網卡只有板載的2*GE+2*10GE,只配置一張NVMESSD卡做cache。機架服務器:支持FusionServerX86系列和鯤鵬TaiShan服務器。支持的機架服務器覆蓋了1/2/4路服務器,可根據客戶要求,靈活的配置客戶需要的硬件設備。接著,我們介紹下超融合存儲的軟件架構。華為超融合總體架構主要由:硬件平臺、分布式存儲軟件、安裝部署和運維管理平臺、虛擬化平臺以及相應的備份容災方案,其中虛擬化平臺支持華為自研的FusionSphere虛擬化平臺以及Vmware虛擬化平臺。另外,FusionSpere場景下,FusionCubeHCI支持混合部署方案,在支持FusionSphere虛擬化平臺外還能同時支持物理節點部署,為系統數據庫提供相應的計算、存儲和網絡資源。名稱說明FusionCubeCenterFusionCube的管理軟件,管理其中的虛擬化資源、硬件資源,提供系統監控管理和運維管理等功能。FusionCubeBuilder提供現場快速安裝部署FusionCube系統軟件,可用于現場更換虛擬化平臺軟件或者更新版本。FusionStorage使用分布式存儲技術,通過合理有序組織服務器的本地硬盤,提供高性能高可靠的塊存儲業務。虛擬化平臺支持華為自研FusionSphere虛擬化平臺和Vmware虛擬化平臺,提供系統虛擬化管理平臺。備份用于備份系統業務虛擬化,主要包括自研的備份軟件eBackup和第三備份軟件Veeam、CV、愛數等主流備份軟件。容災提供基于存儲雙活和存儲異步復制的容災方案,容災軟件主要采用自研BCManager和UltraVR硬件平臺服務器使用E9000/X6800/X6000/機架服務器,支持計算、存儲、交換、電源模塊化設計,計算和存儲節點按需混配,計算、存儲都在服務器內部署完成,支持GPU,SSDPCIe等IO加速擴展,支持豐富的交換模塊10GE/IB,根據業務要求靈活配置。傳統的架構中,SANController是集中式的,這就會造成瓶頸。而在FusionCube中,分布式的架構和分布式的存儲使得存儲的性能瓶頸消失。每個機器含都有計算和存儲,相當于每個機器都是一個分布式的存儲控制器,這就解決了集中機頭控制器的瓶頸問題。在計算和存儲分離的架構下,所有的數據都需要通過網絡讀寫到存儲陣列,網絡就成了瓶頸。而在FusionCube中,采用了業界最快的IB網絡,提供了56Gbps的帶寬,并且每個節點之間是P2P互聯的,有效解決了網絡帶寬的問題。傳統架構中的第三個瓶頸是讀寫磁盤的時候,原來的硬盤讀寫速度慢成了瓶頸。而華為HCI架構中采用了ES3000SSD卡作為緩存,ES3000是業界最快的SSD卡,有效解決了本地磁盤的讀寫問題。分布式存儲邏輯結構:在整個系統中,所有模塊都是按照分布式、去中心化的方式進行部署,為系統提供高擴展和高性能打下了堅實的基礎。其中一些關鍵組件的功能解釋如下:1)VBS模塊是無狀態接口層,為VM和數據庫提供標準SCSI/iSCSI服務,與傳統磁陣的控制器類似,但是又有很大的區別,VBS基本不受部署數量的限制,它可以部署在所有需要存儲服務的服務器中,打破了傳統磁陣控制器數量的限制。2)OSD模塊提供硬盤的管理,部署在所有有硬盤的服務器中,它為VBS提供數據的讀取和寫入,同時它還提供高級存儲服務,包括瘦分配、快照、鏈接克隆,Cache、數據一致性等功能。3)MDC模塊提供存儲集群狀態的管理,以集群方式進行部署,它不參與數據的處理流程,它會實時收集集群中各個模塊的狀態,并根據算法進行集群視圖的控制。關鍵技術分布式哈算法FusionStorage塊存儲采用DHT(DistributedHashTable,分布式哈希表)架構,將所有元數據按規則分布在各存儲節點,不存在跨節點的元數據訪問,徹底避免了元數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論