超融合架構技術白皮書_第1頁
超融合架構技術白皮書_第2頁
超融合架構技術白皮書_第3頁
超融合架構技術白皮書_第4頁
超融合架構技術白皮書_第5頁
已閱讀5頁,還剩109頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

3 3 42XX超融合技術架構 62.1超融合架構概述 6 62.2XX超融合架構組成模塊 6 62.3aSV計算虛擬化平臺 7 72.3.2aSV技術原理 82.3.3aSV的技術特性 192.3.4aSV的特色技術 242.4aSAN存儲虛擬化 28 282.4.2aSAN技術原理 292.4.3aSAN存儲數據可靠性保障 412.4.4XXaSAN功能特性 482.5aNet網絡虛擬化 49 492.5.2aNET網絡虛擬化技術原理 502.5.3aNet功能特性 562.5.4XXaNet的特色技術 573XX超融合架構產品介紹 錯誤!未定義書簽。 錯誤!未定義書簽。 錯誤!未定義書簽。4XX超融合架構帶來的核心價值 60 60 20世紀90年代,隨著Windows的廣泛使用及Linux服務器操作系統的我們現在正處于一場幾十年未見的企業級數據中心革命性轉變中,究其核心,這一轉變是由“軟件”基礎設施的崛起而驅動。虛擬機、虛擬網絡和存儲設備能夠以高速自動化的方式分配與重新配置,不會受到非動態設置的硬件基礎設施的限制,在“軟件定義數據中心”的模型下,用戶首先考慮的是應用,根據應用的模式便可靈活的調配其所需的IT基礎架構資源,也就是通過軟件化足上面所述的虛擬化,標準化和自動化訴求外,秉承XX公司產品的優秀基因,本書介紹的內容大致如下:第一章、在前言部分,給您對云計算,云平臺有一個概括性的認識,并對第二章、講述超融合架構中的主要功能模塊,各個功能模塊的技術細節介第三章、介紹XX超融合架構涵蓋的產品。第三章、向您介紹XX超融合架構中的技術在為客戶帶來的核心價值。第四章、分享超融合架構在客戶中的實際應用場景,并給出XX超融合架構22XX超融合技術架構2.1.1超融合架構的定義2.2.1系統總體架構VMVMVMVMaSV服務器虛擬化通用交換機aSwitchvSSLaNET網絡虛擬化通用X86服務器aSAN存儲虛擬化XX超融合架構圖所后續章節,會針對超融合架構中的三大功能模塊:aSV、aSAN、aNet所計算資源虛擬化技術就是將通用的x86服務器經過虛擬化軟件,對最終用戶呈現標準的虛擬機。這些虛擬機就像同一個廠家生產的系列化的產品一樣,虛擬機的定義:虛擬機(VirtualMachine)是由虛擬化層提供的高效、獨立的虛擬計算機系統,每臺虛擬機都是一個完整的系統,它具有處理器、內存、虛擬機與物理服務器相比:虛擬機不是由真實的電子元件組成,而是由一組虛擬組件(文件)組成,這些虛擬組件與物理服務器的硬件配置無關,關鍵抽象解耦2.可便捷地將整個系統(包括虛擬硬件、操作系統和配置好的應用程序)遷移;擬機監視器(VirtualMachineMonitor)。TypeType-I:裸金屬梁構Hypervisor,常見的Hypervisor分兩類:Type-I(裸金屬型)實硬件資源的訪問都要通過VMM來完成,作為底層硬件的直接操作者,系統。這種方案的性能處于主機虛擬化與操作系統虛擬化之間。代表是VMwareESXServer、CitrixXenServer和MicrosoftHyper-V,LinuxK內核,導致性能是三種虛擬化技術中最差的。主機虛擬化技術代表是中的LinuxKVM虛擬化,即為TypeCPU,并可利用它編譯出可運行在powerkvm用戶空間種模式:客戶模式(有自己的內核和用戶模式)。在kvm模型中,每一個虛擬動使用字符設備/dev/kvm作為管理接口;另一個是模擬PC硬件的用戶空間組件,這是一個稍作修改的qemu進程。同時,aSV采用KVM優勢有:嵌入到Linux正式Kernel(提高兼容性)代碼級資源調用(提高性能)虛擬機就是一個進程(內存易于管理)>直接支持NUMA技術(提高擴展性)>保持開源發展模式(強大的社區支持)經典的虛擬化方法就是使用“特權解除”和“陷入-模擬”的方式,即將GuestOS運行在非特權級,而將VMM運行于最高特權級(完全控制系統資不是特權指令(稱為臨界指令),因此“特權解除”并不能導致他們發生陷入測,捕捉后模擬”的過程進行優化。該派內部之實現又有些差別,其中以行時將VM上執行的GuestOS指令,翻譯成x86指令集的一個子集,其中的敏感指令被替換成陷入指令。翻譯過程與指令執行交叉進行,不含敏感指令的改)半虛擬化的基本思想是通過修改GuestOS的代碼,將含有敏感指令的操作,替換為對VMM的超調用Hypercall,類似OS的系統調用,將控制權轉移到VMM,該技術因VMM項目而廣為人知。該技術的優勢在于VM的性能能接近于物理機,缺點在于需要修改GuestOS(如:Windows不支持修改)及增加的維護成本,關鍵修改GuestOS會導致操作系統對特定hypervisor的依賴性,因此很多虛擬化廠商基于VMM開發的虛擬化產品部分已經放棄了Linux半虛擬化,而專注基于硬件輔助的全虛擬化開發,來支持未經修改的操作系統。3、X86“硬件輔助虛擬化”其基本思想就是引入新的處理器運行模式和新的指令,使得VMM和GuestOS運行于不同的模式下,GuestOS運行于受控模式指令在受控模式下全部會陷入VMM,這樣就解決了部分非特權的敏感指令的“陷入-模擬”難題,而且模式切換時上下文的保存恢復由硬件來完成,這樣就種處理器工作模式:根(Root)操作模式和非根(Non-root)操作模式。VMM運作在Root操作模式下,而GuestOS運行在Non-root操作模式下。運行在這兩個操作模式的0環。這樣,既能使VMM運行在0環,也能使GuestOS運行在0環,避免了修改GuestOS。Root操作模式和Non-root操作模式的切換是通過新增的CPU指令(如:VMXON,VMXOFF)來完成。支持任何操作系統的虛擬化而無須修改OS內核,得到了虛擬化軟件廠商的支持。硬件輔助虛擬化技術已經逐漸消除軟件虛擬化技術之間的差別,并成為未vCPU機制Gos物理CPU:每個物理CPU關聯著一個C執行隊列1敏混度:VMM費責CFUEpCFU上的調度vCPU調度機制對虛擬機來說,不直接感知物理CPU,虛擬機的計算單元通過vCPU對象來呈現。虛擬機只看到VMM呈現給它的vCPU。在VMM中,每個vCPU對應一個VMCS(Virtual-MachineControlStructure)結構,當vcpu被從物理CPU上切換下來的時候,其運行上下文會被保存在其對應的VMCS結構中;GomtosGu*tO當vcpu被切換到pcpu上運行時,其運行上下文會從對應的VMCS結構中導入到物理CPU上。通過這種方式,實現各vCPU之間的獨立運行。從虛擬機系統的結構與功能劃分可以看出,客戶操作系統與虛擬機監視器共同構成了虛擬機系統的兩級調度框架,如圖所示是一個多核環境下虛擬機系統的兩級調度框架。客戶操作系統負責第2級調度,即線程或進程在vCPU上的調度(將核心線程映射到相應的虛擬CPU上)。虛擬機監視器負責第1級調度,即vCPU在物理處理單元上的調度。兩級調度的調度策略和機制不存在依賴關系。vCPU調度器負責物理處理器資源在各個虛擬機之間的分配與調度,本質上即把各個虛擬機中的vCPU按照一定的策略和機制調度在物理處理單元上可以采用任意的策略來分配物理資源,滿足虛擬機的不同需求。vCPU可以調度在一個或多個物理處理單元執行(分時復用或空間復用物理處理單元),也可以與物理處理單元建立一對一固定的映射關系(限制訪問指定的物理處理單元)。因為VMM(VirtualMachineMonitor)掌控所有系統資源,因此VMM握有整個內存資源,其負責頁式內存管理,維護虛擬地址到機器地址的映射關系。因GuestOS本身亦有頁式內存管理機制,則有VMM的整個系統就比正常系統多了一層映射:A.虛擬地址(VA),指GuestOS提供給其應用程序使用的線性地址空間;B.物理地址(PA),經VMM抽象的、虛擬機看到的偽物理地址;C.機器地址(MA),真實的機器地址,即地址總線上出現的地址信號;映射。實際運行時,用戶程序訪問VA1,經GuestOS的頁表轉換得到PA1,再由VMM介入,使用VMM的頁表將PA1轉換為MA1。普通MMU只能完成一次虛擬地址到物理地址的映射,在虛擬機環境下,經過MMU轉換所得到的“物理地址”并不是真正的機器地址。若需得到真正的機器地址,必須由VMM介入,再經過一次映射才能得到總線上使用的機器地址。如果虛擬機的每個內存訪問都需要VMM介入,并由軟件模擬地址轉換的效率是很低下的,幾乎不具有實際可用性,為實現虛擬地址到機器地址的高效轉換,現普遍采用的思想是:由VMM根據映射f和g生成復合的映射fg,并直接將這個映射關系寫入MMU。當前采用的頁表虛擬化方法主要是MMU類虛擬化(MMUParavirtualization)和影子頁表,后者已被內存的硬件輔助1、MMUParavirtualization其基本原理是:當GuestOS創建一個新的頁表時,會從它所維護的空閑頁表的寫權限,之后GuestOS對該頁表的寫操作都會陷入到器頁面,而且不得包含對頁表頁面的可寫映射。后VMM會根據自己所維護的映射關系,將頁表項中的物理地址替換為相應的機器地址,最后再把修改過的2、內存硬件輔助虛擬化GPAGVA>內存的硬件輔助虛擬化技術是用于替代虛擬化技術中軟件實現的“影子頁表”的一種硬件輔助虛擬化技術,其基本原理是:GVA(客戶操作系統的虛擬地址)->GPA(客戶操作系統的物理地址)->HPA(宿主操作系統的物理地址)兩次地址轉換都由CPU硬件自動完成(軟件實現內存開銷大、性能差)。以VT-x技術的頁表擴充技術ExtendedPageTable(EPT)為例,首先VMM預先把客戶機物理地址轉換到機器地址的EPT頁表設置到CPU中;其次客戶GuestGuestOSVMMHardware①勤謗求③②2、前端/后端模擬:其它其決①SR-IOVIntslVT-dFC-SI勘蒙①服務器架構下把內存放到單一的存儲池中,這對于單處理器或單核心的系統工作良好。但是這種傳統的統一訪問方式,在多核心同時訪問內存空間時會導致因此NUMA改變了內存對CPU的呈現方式。這是通過對服務器每個CPU的內存進行分區來實現的。每個分區(或內存塊)稱為NUMA節點,而和該分區相關的處理器可以更快地訪問NUMA內存點爭用服務器上的資源(其它的內存分區分配給其它處理器)。NUMA的概念跟緩存相關。處理器的速度要比內存快得多,因此數據總是被移動到更快的本地緩存,這里處理器訪問的速度要比通用內存快得多。NUMA本質上為每個處理器配置了獨有的整體系統緩存,減少了多處理器試圖NUMA與服務器虛擬化完全兼容,而且NUMA也可以支持任意一個處理器訪問服務器上的任何一塊內存區域。某個處理器當然可以訪問位于不同區域上的內存數據,但是需要更多本地NUMA節點之外的傳輸,并且需要目標NUMA節點的確認。這增加了整體開銷,影響了CPU和內存子系統的性能。NUMA對虛擬機負載不存在任何兼容性問題,但是理論上虛擬機最完美的方式應該是在某個NUMA節點內。這可以防止處理器需要跟其它的NUMA節XXXX的aSV支持NUMA技術,使得hypervisor和上層OS內存互連,這SR-IOV通常針對虛擬化服務器的技術是通過軟件模擬共享和虛擬化網絡適配器的一個物理端口,以滿足虛擬機的I/O需求,模擬軟件的多個層為虛擬機作了法,主要利用iNIC實現網橋卸載虛擬網卡,允許將物理網絡適配器的SR-IOV虛擬功能直接分配給虛擬機,可以提高網絡吞吐量,并縮短網絡延遲,同時減一項標準,是虛擬通道(在物理網卡上對上層軟件系統虛擬出多個物理通道,供服務。通過SR-IOV一個PCle設備不僅可以導出多個PCI物理功能,還可以配到一個虛擬機,能夠讓網絡傳輸繞過軟件模擬層,直接分配到虛擬機,實現在這個模型中,不需要任何透傳,因為虛擬化在終端設備上發生,允許管理程序簡單地將虛擬功能映射到VM上以實現本機設備性能和隔離安全。SR-IOV虛擬出的通道分為兩個類型:創建虛擬機虛擬機開關機、重啟、掛起虛擬機上的操作系統安裝創建模板更新虛擬機硬件配置遷移虛擬機及/或虛擬機的存儲資源分析虛擬機的資源利用情況2.3.4aSV的特色技術Windows系統驅動保護保護虛擬磁盤文件虛擬磁盤驅動擬塊設備虛擬磁盤應用情況)在虛擬化環境中,如果生產環境的應用整合到硬件資源相對匱乏的物理主機上,虛擬機的資源需求往往會成為瓶頸,全部資源需求很有可能超過主機的aSV虛擬化管理平臺提供的動態資源調度技術,通過引入一個自動化機制,持續地動態平衡資源能力,將虛擬機遷移到有更多可用資源的主機上,確保每個虛擬機在任何節點都能及時地調用相應的資源。即便大量運行對CPU和內存占用較高的虛擬機(比如數據庫虛擬機),只要開啟了動態資源調度功能,就可實現全自動化的資源分配和負載平衡功能,也可以顯著地降低數據中心的成aSV的動態資源調度功能其實現原理:通過跨越集群之間的心跳機制,定則來判斷是否需要為該主機在集群內尋找有更多可用資源的主機,以將該主機上的虛擬機通過虛擬機遷移技術遷移到另外一臺具有更多合適資源的服務器上,或者將該服務器上其它的虛擬機遷移出去,從而保證某個關鍵虛擬機的資源需多USB映射用加密的服務器,轉化到虛擬化后,需要將插在虛擬化平臺上的硬件key,映業界給出的方案有三種:一、采用主機映射:直接采用主機映射的方式來完成,缺點是不支持網絡二、采用UsbAnywhere:通過使用中間設備,將中間設備IP化,然后在虛擬機上安裝驅動并配置對端設備的方式進行的。缺點是需要guest虛擬機內三、采用底層硬件虛擬化加網絡代理:支持熱遷移、網絡映射、無需修改guest機內部。最終實現,物理設備遷移到虛擬化平臺后,可以直接無縫的操作讀取原usb硬件設備。同時解決上述兩種方案中的缺陷,破除了在虛擬化推熱遷移功能的實現機制:由于整體方案是基于網絡代理處理,所以在遷移aSV采用上述的第三種方案,融入了對多USB的支持,帶來的優勢有:2、guest虛擬機無需安裝插件;3、能支持熱遷移,跨主機映射,適應VMP集群環境;4、虛擬機遷移完成可以自動掛載上原usb設備;5、可以簡化集成為類似usbhub的小設備,與VMP配套,搭建usb映射環境6、虛擬機故障重啟、目標端usb設備網絡中斷等異常情況恢復后自動重映射。2.4.1存儲虛擬化概述采用計算虛擬化技術給服務器帶來更高的資源利用率、給業務帶來更便捷的部署,降低了TCO,與此同時,服務器虛擬化的部署給存儲帶來以下挑戰:相比傳統的物理服務器方式,單個存儲系統承載了更多的業務,存儲系統需要更強勁的性能來支撐;采用共享存儲方式部署虛擬機,單個卷上可能承載幾十或上百的虛擬機,導致卷IO呈現更多的隨機特征,這對傳統的Cache技術提出挑戰;單個卷承載多個虛擬機業務,要求存儲系統具備協調虛擬機訪問競爭,保證對IO吞吐要求高的虛擬機獲取到資源實現性能目標;單個卷上承載較多的虛擬機,需要卷具有很高的IO性能,這對傳統受限于業界典型的分布式存儲技術主要有分布式文件系統存儲、分布式對象存儲和分布式塊設備存儲等幾種形式。分布式存儲技術ServerSAN及其相關產品已經日趨成熟,并在IT行業得到了廣泛的使用和驗證,例如互聯網搜索引擎中使用的分布式文件存儲,商業化公有云中使用的分布式塊存儲等。分布式存儲軟件系統具有以下特點:高可靠:采用集群管理方式,不存在單點故障,靈活配置多數據副本,不同數據副本存放在不同的機架、服務器和硬盤上,單個物理設備故障不影響業務的使用,系統檢測到設備故障后可以自動重建數據副本;高擴展:沒有集中式存儲控制器,支持平滑擴容易管理:存儲軟件直接部署在服務器上,沒有單獨的存儲專用硬件設備,通過Web頁面的方式進行存儲的管理,配置和維護簡XXaSAN概述aSAN是XX在充分掌握了用戶對虛擬化環境存儲方面的需求基礎上,推出以aSAN分布式存儲軟件為核心的解決方案,aSAN是基于分布式文件系統Glusterfs開發的面對存儲虛擬化的一款產品,并作為超融合架構中的重要組成機制保障、故障自動重構機制等諸多存儲技術,能夠滿足關鍵業務的存儲需求,2.4.2aSAN技術原理aSAN基于底層Hypervisor之上,通過主機管理、磁盤管理、緩存技術、儲的空間,通過向VMP提供訪問接口,使得虛擬機可以進aSAN需要基于VMP集群獲取集群內主機信息,因此在構建aSAN時,首先會要求建立VMP集群,所以在aSAN的環境中,至少需要2臺主機節點來構建aSAN。由于下一節磁盤管理的策略與副本設置有直接管理,因此在講解磁盤管理度是文件級別。例如兩個副本,即把文件A同時保存到磁盤1和磁盤2上。并文件A文件A服務層磁盤2不一定是技術特點:存儲池可用空間=集群全部機械磁盤空間/副本數(同構情況),因此副本底層管理的副本對上層服務是透明的,上層無法感知副本的存在。磁盤管在沒有故障等異常情況下,文件副本數據是始終一致的,不存在所謂主副如果對文件A進行修改,如寫入一段數據,這段數據會被同時寫到兩個副本文件。如果是從文件A讀取一段數據,則aSAN磁盤管理服務根據集群內主機數和aSAN初始化時所選擇的副本數了支持主機故障而不影響數據完整性的目標,復制卷的磁盤組的每個磁盤都必須是在不同主機上。即需要做到跨主機副本。跨主機副本的關鍵在于復制卷磁以下面場景為列(兩臺主機,每臺主機各三塊磁盤組建兩個副本):主機A主機A?復制卷1復制卷3當構建兩副本,并且兩臺主機磁盤數相同時。主機間的磁盤會——對應組成復制卷。邏輯視圖如下:文件A從邏輯視圖上,可以看出來和前面提到的單主機邏輯視圖并沒有本質上的區別,只是最底層的磁盤分組時,保證了復制卷內下面的磁盤不在同一主機內,SSD讀緩存加速原理在aSAN里面,會默認把系統內的SSD磁盤作為緩存盤使用,下面介紹首先需要區分aSAN客戶端和服務端概念。在aSAN里面,負責處理底層磁盤IO稱為服務端;負責向上層提供存儲接口(如訪問的掛載點)稱為客戶端。端)。邏輯視圖如下:復制卷1磁盤1 下面拋開底層的分布卷、復制卷、磁盤分組等概念,僅在客戶端上理解上層文件訪問入口上層文件訪問入口SSD讀緩存模塊與服務端進行通信B、C三個文件,可以分別各緩存讀過的一部分數據,沒簡單地看,SSD讀緩存模塊工作在文件訪問入口和服務端通信層之間。所有對文件的IO動作都會經過SSD讀緩存模塊進行處理。下面分別針對首次文件讀取、二次文件讀取、文件寫入3個過程說明工作流程。●首次文件讀取上層文件訪問入口上層文件訪問入口SSD讀緩存模塊SSD磁盤與服務端進行通信(底層過程省略)未緩存數據塊的首次讀操作步驟說明:1.從上層下來一個針對A文件的區間塊[A1,A2]的讀操作,由于該數據塊是首次讀取,沒命中SSD讀緩存。該讀操作會直接傳遞到下去,進入流程2。2.[A1,A2]的讀操作繼續傳遞到服務端,進行具體的讀操作,完成后返回,進入流程33.數據塊[A1,A2]在流程3里面返回到SSD讀緩存模塊,進入流程44.SSD讀緩存模塊會把數據塊[A1,A2]復制一份保存到SSD磁盤并建立相關索引,對應4.1。原數據塊[A1,A2]繼續往上返回到上層響應讀操作,對應4.2。注意4.1、4.2是并發進行,因此這個緩存動作不會對原5.至此,數據塊[A1,A2]就被保存到SSD磁盤內,以備下次讀取直接從Read[A1,A2]32針對已緩存數據塊的二次讀取步驟說明:假設數據塊[A1,A2]已經緩存到SSD磁盤內,1.從上層下來一個同樣是針對A文件的區間塊[A1,A2]的讀操2.由于該數據塊[A1,A2]已經有緩存,在SSD讀緩存模塊里面命中索引,從而直接向SSD磁盤發起讀出緩存數據塊3.緩存數據塊[A1,A2]從SSD磁盤返回到SSD讀緩存模塊,進入流程44.SSD讀緩存模塊把緩存數據塊[A1,A2]返回給上層。至此,對緩存數據塊[A1,A2]的重復讀取直接在客戶端返回,避免了服務雖然當前aSAN實現的讀緩存,但對于讀緩需要做相應的處理,以保證緩存的內容始終和底層磁盤一致,并且是最新的,aSAN讀緩存模塊對寫操作進行處理實質是基于最近訪問原則,即最近寫入的數據在不久的將來被讀出的概率會比較高,例如文件共享服務器,某人傳aSAN讀緩存對寫操作的處理從實現上分為首次寫預緩存、二次寫更新緩2.寫操作一直傳遞到服務端,寫入到底層磁盤,操作完成后會返回結果,進入流程3據已經成功寫入,則進入流程4。如果返回結果是失敗,則不會進入流程4,而是直接返回結果到上層。相關索引,對應4.1。原返回結果繼續往上返回到上層響應讀操作,對應4.2。注意4.1、4.2是并發進行,因此這個緩存動作不會對原操作造成延時。至此,數據塊[A1,A2]的寫入也會保存到SSD磁盤上,以備下次訪問。下次訪問的流程與二次文件讀取流程相同,從而提升了下次訪問數據的速度。■文件塊二次寫更新緩存SSD讀緩存文件塊寫更新是指對SSD讀緩存已緩存的數據塊進行更新的動作。WRITE[A1,A2SSD磁盤Update[A1,A2]假設數據塊[A1,A2]原來已經有緩存了,現在上層再次對[A1,A2]來一次寫操作(例如更新內容)。進入流程3據已經成功寫入,可以更新SSD讀緩存數據,進入流程4。如果返回4.SSD讀緩存模塊會把數據塊[A1,A2]復制一份更新到SSD磁盤并建立相關索引,對應4.1。原返回結果繼續往上返回到上層響應讀操作,對應4.2。注意4.1、4.2是并發進行,因此這個緩存動作不會對原操作造成延時。SSD寫緩存加速原理SSD寫緩存功能在aSAN2.0開始支持。SSD寫緩存工作在服務端。由于寫緩存工作在服務端,也就是說在每個副本上都有寫緩存,即副本的。即使有SSD磁盤突然損壞,也能在副本數范圍內保證數據的安全。分布卷分布卷(掛載點/客戶端)復制卷1磁盤1(服務端)磁盤Y磁盤z(服務端)磁盤x(服務端)復制卷NSSD寫緩存原理是在機械硬盤上增加一層SSD寫緩存層,見下圖:上層10輸入模塊上層10輸入模塊2SSD寫緩存模塊SSD磁盤45機械磁盤SSD寫緩存數據流分成藍色和紅色兩部分。這兩部分是同時在運行的,沒有先后關系。藍色部分是虛擬機有數據寫入SSD緩存,紅色部分是從SSD緩存讀出數據回寫到機械磁盤。流程如下:2.SSD寫緩存模塊把數據寫入到SSD磁盤,并獲得返回值。3.SSD寫緩存模塊在確定數據寫入SSD磁盤后,即立即返回上層模塊寫入成功4.SSD寫緩存模塊在緩存數據累計到一定量后,從SSD磁盤讀出數據5.SSD寫緩存把從SSD磁盤讀出的數據回寫到機械磁盤。其中,第4、5步是在后臺自動進行的,不會干擾第1、2、3步的邏輯。從SSD磁盤回寫到機械磁盤是需要累積一定數據量后才會進行觸發的。這上層10輸入模塊1.Read4.Returnfromcache2.CheckcahceSSD寫緩存模塊SSD磁盤3.Hitcache流程說明:1.上層下發讀請求2.SSD寫緩存模塊先檢查數據是否還在緩存內未回寫3.命中緩存,返回數據(如果不命中緩存,則會返回從底層數據盤讀取)4.向上層返回數據如果上層持續對SSD寫緩存進行大量不間斷的數據寫入,直到SSD寫緩存空間用完。這時的上次繼續寫入數據的速度就會下降至約等于寫緩存回寫機械上層寫入數據流上層寫入數據流機械磁盤當SSD磁盤用滿時會出現寫入數據流速度<=回寫數據流速度。在虛擬機層面看,就是寫入數據下降到機械盤速度。如果持續出現這種情況,說明SSD磁盤容量不足以應對業務IO寫性能,需要增加SSD緩存盤解決。場景下,如果一個SSD磁盤損壞后,其他副本的SSD還正常情況下,對數據安全不會造成影響。一旦SSD離線超過10分鐘,緩存數據就視作失效,進入副本修復流程。由于所有數據都是被SSD接管的,因此如果是誤拔出SSD硬盤,需要在10分鐘內插回來,否則會認為該副本數據全部需要重建。2.4.3aSAN存儲數據可靠性保障如果在磁盤故障后,超過了設置的超時時間依然沒有人工介入處理,aSAN將會自動進行數據重建,以保證數據副本數完備,確保數據可靠性。同aSAN在初始化階段會自動配置至少把集群里副本數個磁盤作為熱備盤。注意不是每個主機一個熱備盤,而是一個集群里面全局使用。熱備盤在初始化例如兩個副本時會至少保留兩個熱備盤,三個副本時會至少保留三個熱備盤。這些熱備盤不會集中在一個主機上面,而是分布在不同主機上(符合副本跨主機原則)。下面以3主機2副本,每主機4個硬盤為例子。復制卷3復制卷3主機A主機B主機C復制卷1A1B1C1A2B2C2復制卷4A3B3復制卷5上圖是3主機2副本,每主機4磁盤的分組例子。其中磁盤A4、磁盤C3當任何一個主機的任意一個硬盤發生故障時,都可以按照跨主機副本原則復制卷3復制卷3主機C復制卷1B1復制卷2B2復制卷4B3復制卷5C4主機B主機AA3A2B4A1復制卷3復制卷3主機A主機B主機C復制卷1A1B1C1復制卷2A2B2復制卷4A3B3復制卷5復制卷3復制卷3復制卷1A1B1C1復制卷2A2A3B3復制卷5A4*B4C4在aSAN自動使用熱備盤替換故障磁盤后,UI上依然會顯示原來的故障磁盤損壞,可以進行更換磁盤。這時新替換的硬盤會作為新熱備盤使用,不需要執行數據回遷。這一點與前文沒有熱備盤會做數據回遷是不一樣的。復制卷3復制卷3主機B復制卷181復制卷2A2復制告4C4新復制卷5主機A主機CA1故障磁盤替換所有過程都可以帶業務進行,不需要停機停止業務,就可以aSAN在多主機集群下,復制卷有個最高原則:跨主機建立復制卷。該原則的目的是為了達到在主機出現故障時,數據依然可用。在2主機2副本模式在2主機2副本模式下,當主機B整個離線或,可以看到任何一個復制卷都依然有一個副本存在主機A上,數據依然可用略為復雜的例子(先不考慮有熱備盤):復制卷3復制卷3A1B1C1復制卷2A2B2C2復制卷4A3B3C3復制卷5A4B4C4復制卷6因此這時全局數據依然可用。在主機故障后,在aSAN高級設備里面有這樣一個故障時間策略執行相應的處理:假如入主機故障后直到超過設定的故障時間依然沒有人工介入處理,那么aSAN會采取自動替換動作在其他主機上重建副本。復制卷1A1B1C1復制卷2A2B2CA3B3C3A1B1A3C對比上面2張圖,可以看出在主機C故障并超時后,aSAN會在集群范圍內尋找最佳借用磁盤組建復制卷,從而重建副本。這里的主機副本自動重建機制和單個故障硬盤的自動重建機制并沒有本質差別,只是同時做了多個故障盤注意,主機自動重建是有代價的,會復用其他磁盤的空間和性能。因此在條件允許情況下,應盡快替換主機。如果不想aSAN才超時自動重建,可以到副本修復是指當某個磁盤出現離線再上線后,保存在上面的文件副本可能是舊數據,需要按照其他在線的文件副本進行修復的一個行為。典型的情況是通過采用副本快速修復技術,即對于短暫離線的副本,只修復少量差異數據,從而避免了整個文件進行對比修復,達到快速修改的目的,同時,aSAN對業務IO和修復IO做了優先級控制,從而避免了副本修復IO對業務IO的影2.4.4XXaSAN功能特性自動精簡配置(ThinProvisioning)是一種先進的、智能的、高效的容量分配和管理技術,它擴展了存儲管理功能,可以用小的物理容量為操作系統提供超大容量的虛擬存儲空間。并且隨著應用的數據量增長,實際存儲空間也可空間”,可以顯著減少已分配但是未使用的存儲空間。如果采用傳統的磁盤分配方法,需要用戶對當前和未來業務發展規模進行正確的預判,提前做好空間資源的規劃。在實際中,由于對應用系統規模的估計不準確,往往會造成容量分配的浪費,比如為一個應用系統預分配了5TB的空間,但該應用卻只需要1TB的容量,這就造成了4TB的容量浪費,而且這4TB容量被分配了之后,很難再被別的應用系統使用。即使是最優秀的系統管理員,也不可能恰如其分的為應用分配好存儲資源,而沒有任何的浪費。根據業界的權威統計,由于預分配了太大的存儲空間而導致的資源浪費,大約占總存儲空間的30%左右。aSAN采用了自動精簡配置技術有效的解決了存儲資源的空間分配難題,提高了資源利用率。采用自動精簡配置技術的數據卷分配給用戶的是一個邏輯的虛擬容量,而不是一個固定的物理空間,只有當用戶向該邏輯資源真正寫數aSAN私網鏈路聚合aSAN的私網鏈路聚合是為了提高網絡可靠性和性能設置而提出的。使用aSAN私網鏈路聚合不需要交換機上配置鏈路聚合,由存儲私網負責鏈路聚合路。而aSAN私網鏈路聚合采用按照TCP連接進行均分,兩臺主機間的不同TCP連接可使用不同物理鏈路。在保障可靠性的同時,還達到了更加充分的利aSAN采用一致性復制協議來保證多個副本數據的一致性,即只有當所有據都是完全一致,從任一副本讀到的數據都是相同的。如果某個副本中的某個2.5.1網絡虛擬化概述網絡虛擬化也是構建超融合架構中非常重要的一部分,如果在云計算、虛就會存在諸多問題:一、如何保障虛擬機在保持相應的網絡策略不變的情況下進行2.5.2aNET網絡虛擬化技術原理SDNSDN(SoftwareDefinedNetwork,軟件定義網絡)是一種創新性的網狹義的SDN:主要指的是通過OpenFlow來實現。架構上大同小異,用一副標準的SDN規范圖來說明下:SDNapplicationOsSControllerplaneCoordinatorAgent(20)DataplaneCoordinatorAgent(21)agreements,credentials,policy,etc.)可以這幅圖看出實現SDN的重點在Dataplane和Controllerplane,以開放取代封閉,以通用替代專有——將原本傳統的專業網元設備上的網絡功能提取出來虛擬化,運行在通用的硬件平臺上,業界稱這種變化為NFV。NFV(NetworkFunctionsVirtualisation網絡功能虛擬化)的目標是希望通過廣泛采用的硬件承載各種各樣的網絡軟件功能,實現軟件的靈活加載,在數據中心、網絡節點和用戶端等各個位置靈活的配置,加快網絡部署和調整的速度,降低業務部署的復雜度及總體投資成本,提高網絡設備的統一化、通用化、通過NFV技術,將網絡功能資源進行虛擬化,使得網絡資源升級為虛擬網絡的束縛,可以在全網范圍內按需流動,呈現出網絡資源的統一池化狀態,傳統數據平面:在典型的虛擬化網絡場景下,數據包將由網絡接口卡接收,然后進行分類并生成規定的動作,并對數據包付諸實施。在傳統的Linux模式下,系統接收數據包和將數據包發送出系統的過程占了包處理中很大一部分時間,換句話說,即使用戶空間應用程序什么都不做,而只是將數據包從接收端口傳送到發送端當網卡從網絡接收到一個數據幀后,會使用直接內存訪問(DMA)將數據幀傳送到針對這一目的而預先分配的內核緩沖區內,更新適當的接收描述符環,然后發出中斷通知數據幀的到達。操作系統對中斷進行處理,更新環,然后將數據幀交給網絡堆棧。網絡堆棧對數據進行處理,如果數據幀的目的地是本地套接字,那么就將數據復制到該套接字,而擁有該套接字的用戶空間應用程序進行傳輸時,用戶應用程序通過系統調用將數據寫入到一個套接字,使Linux內核將數據從用戶緩沖區復制到內核緩沖區中。然后網絡堆棧對數據進行處理,并根據需要對其進行封裝,然后再調用網卡驅動程序。網卡驅動程序網卡將數據幀從內核緩沖區轉移到自己內置的先進先出(FIFO)緩沖區,然后將數據幀傳輸到網絡。接著網卡會發出一個中斷,通知數據幀已經成功傳傳統模式下CPU損耗主要發生在如下幾個地方:中斷處理:這包括在接收到中斷時暫停正在執行的任務,對中斷進行處理加,系統將會花費越來越多的時間來處理中斷,當流量速度達到10G以太網卡的線路速度時就會嚴重影響性能。而對于有著多個10G以太網卡的情況,那么上下文切換:上下文切換指的是將來自當前執行線程的寄存器和狀態信息加以保存,之后再將來自被搶占線程的寄存器和狀態信息加以恢復,使該線程系統調用:系統調用會造成用戶模式切換到內核模式,然后再切換回用戶數據復制:數據幀會從內核緩沖區復制到用戶套接字,并從用戶套接字復調度:調度程序使每個線程都能運行很短的一段時間,造成多任務內核中并發執行的假象。當發生調度定時器中斷或在其他一些檢查時間點上,Linux調度程序就會運行,以檢查當前線程是否時間已到。當調度程序決定應該運行Linux等通用操作系統,必須公平地對待網絡應用程序和非網絡應用程序,對于Intel和Broadcom的e1000e,igb,ixgbe,bnx2,tg3,bnx2x等可編程網卡,支持高性能方案,對e1000等網卡,支持通用方案。保證硬件兼容性。機制,真正做到網卡收包一次拷貝,所有進程共享引用的方式,數據可以從網卡傳送到內核、應用層、虛擬機而無需再次拷貝。內存池自動增長,自動回收。單數據線程親和鎖定到硬件線程,避免內核和用戶空間之間的上下文切換、在理想情況下,當數據包到達系統時,所有處理該數據包所需的信息最好都已經在內核的本地高速緩存中。我們可以設想一下,如果當數據包到達時,查找表項目、數據流上下文、以及連接控制塊都已經在高速緩存中的話,那么就可以直接對數據包進行處理,而無需“掛起”并等待外部順序內存訪問完成。內核態的小BUG,可能導致系統宕機,而應用層進程,最程死掉,我們設計了檢測監控機制,在最極端的情況,即使進程意外死亡,也數據平面負責報文的轉發,是整個系統的核心,數據平面由多個數據轉發線程和一個控制線程組成,控制線程負責接收控制進程配置的消息,數據線程在數據線程中實現快速路徑與慢速路徑分離的報文處理方式,報文的轉發是基于session的,一條流匹配到一個session,該條流的第一個報文負責查找各種表項,創建session,并將查找表項的結果記錄到session中,該條流的后續的報文只需查找session,并根據session中記錄的信息對報文進行處理和轉系統中所有的報文都是由數據線程接收的,需要做轉發的報文,不需要送到linux協議棧,直接在數據線程中處理后從網卡發出,對于到設備本身的報文(如ssh,telnet,ospf,bgp,dhcp等等),數據線程無法直接處理,通過TUNaNet數據層面,在六核2.0GHz英特爾至強處理器L5638上使用最長前綴匹配(LPM)時,對于使用六個核心中的四個核心、每個核一個線程、四個10G以太網端口的情況,64字節數據包的IP第三層轉發性能達到了900萬pps。這比原始Linux的性能差不多提高了九倍(原始Linux在雙處理器六核2.4GHz模式下的性能為100萬pps)。數據面為底層處理和數據包IO提供了與硬件打交道的功能,而應用層協議棧在上方提供了一個優化的網絡堆棧實現。與LinuxSMP解決方案相比,降低了對Linux內核的依賴性,從而具有更好的擴展性和穩定性。●控制平面有了數據面和協

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論