智能計算平臺應用開發(中級)-第3章-平臺管理-服務器集群管理_第1頁
智能計算平臺應用開發(中級)-第3章-平臺管理-服務器集群管理_第2頁
智能計算平臺應用開發(中級)-第3章-平臺管理-服務器集群管理_第3頁
智能計算平臺應用開發(中級)-第3章-平臺管理-服務器集群管理_第4頁
智能計算平臺應用開發(中級)-第3章-平臺管理-服務器集群管理_第5頁
已閱讀5頁,還剩25頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第3章平臺管理服務器集群管理存儲資源管理系統管理文檔管理服務器集群管理服務器集群是指將很多服務器集中在一起,運行同一種服務,從客戶端看起來就只有一個服務器。服務器集群可以利用多個服務器進行并行計算,從而獲得很高的計算速度,也可以用多個服務器做備份,即使其中任何一臺機器壞了,也能保證整個系統正常運行。一旦在服務器上安裝并運行了集群服務,該服務器即可加入集群。服務器集群服務器1服務器2服務器3集群管理介紹集群管理是一種通過集群化操作來減少單點故障數量,并且實現了集群化資源高可用性的高效管理。提高服務器性能降低成本提高服務器的可擴展性保證服務器可靠性集群管理介紹——集群管理的主要特性集群管理的主要特性具有伸縮性、可用性和管理性等主要特性。伸縮性可用性管理性集群管理的主要特性集群管理介紹——集群管理的主要特性集群管理的主要特性——伸縮性服務器集群具有很強的可伸縮性。隨著需求和負荷的增長,可以向集群系統添加更多的服務器。在這樣的配置中,可以有多臺服務器執行相同的應用和數據庫操作。伸縮性(可擴展性)是一種評估軟件系統計算處理能力的設計指標,高可伸縮性代表一種彈性,在系統擴展成長過程中,軟件能夠保持旺盛的生命力,通過很少的改動甚至只是硬件設備的添置,就能實現整個系統處理能力的線性增長,實現高吞吐量和低延遲高性能。集群管理介紹——集群管理的主要特性集群管理的主要特性——伸縮性可伸縮性和純粹性能調優有本質區別,可伸縮性是高性能、低成本和可維護性等諸多因素的綜合考量和平衡,可伸縮性講究平滑線性的性能提升,更側重于系統的水平伸縮,通過增加廉價的服務器實現計算能力提升;而普通性能優化只是單臺機器的性能指標優化。他們共同點都是根據應用系統特點在吞吐量和延遲之間進行一個側重選擇,當然水平伸縮分區后會帶來CAP定理約束。軟件的可擴展性也非常重要,但又比較難以掌握,業界試圖通過高并發語言等方式節省開發者精力,但是,無論采取什么技術,如果應用系統內部是鐵板一塊,例如嚴重依賴數據庫,在系統達到一定訪問規模后,負載都集中到一兩臺數據庫上,這時進行分區擴展伸縮就比較困難,正如Hibernate框架創建人GavinKing所說:關系數據庫是最不可擴展的。集群管理介紹——集群管理的主要特性集群管理的主要特性——可用性可用性是指在不需要操作者干預的情況下,防止系統發生故障或從故障中自動恢復的能力。通過把故障服務器上的應用程序轉移到備份服務器上運行,集群系統能夠把正常運行時間提高到大于99.9%,大大減少服務器和應用程序的停機時間。為了屏蔽負載均衡服務器的失效,需要建立一個備份機。主服務器和備份機上都運行HighAvailability監控程序,通過傳送諸如“Iamalive”這樣的信息來監控對方的運行狀況。當備份機不能在一定的時間內收到這樣的信息時,它就接管主服務器的服務IP并繼續提供服務;當備份管理器又從主管理器收到“Iamalive”這樣的信息時,它就釋放服務IP地址,這樣的主管理器就開始再次進行集群管理的工作了。為保證在主服務器失效的情況下系統能正常工作,應在主、備份機之間實現負載集群系統配置信息的同步與備份,保持二者系統的基本一致。集群管理介紹——集群管理的主要特性HA的容錯備援運作過程包括自動偵測、自動切換、自動恢復3個階段,具體如下。自動偵測(Auto-Detect)階段由主機上的軟件通過冗余偵測線,經由復雜的監聽程序。邏輯判斷,來相互偵測對方運行的情況,所檢查的項目有:主機硬件(CPU和周邊)、主機網絡、主機操作系統、數據庫引擎及其他應用程序、主機與磁盤陣列連線。為確保偵測的正確性,而防止錯誤地判斷,可設定安全偵測時間,包括偵測時間間隔,偵測次數以調整安全系數,并且由主機的冗余通信連線,將所匯集的信息記錄下來,以供維護參考。自動切換(Auto-Switch)階段某一主機如果確認對方故障,則正常主機除繼續進行原來的任務,還將依據各種容錯備援模式接管預先設定的備援作業程序,并進行后續的程序及服務。自動恢復(Auto-Recovery)階段在正常主機代替故障主機工作后,故障主機可離線進行修復工作。在故障主機修復后,透過冗余通信線與原正常主機連線,自動切換回修復完成的主機上。整個恢復過程由EDI-HA自動完成,亦可依據預先配置,選擇恢復動作為半自動或不恢復。集群管理介紹——集群管理的主要特性集群管理的主要特性——管理性管理性是能夠滿足管理需求的能力及管理便利的程度。管理性作為解決“企業架構(EnterpriseArchitecture,EA)核心”問題的關鍵質量屬性,通過將管理性作為一個EA屬性來進行應用,讓集群變得可管理。系統管理員可以從遠程管理一個或一組集群。集群管理介紹——集群管理的主要特性可管理的軟件和系統具有的主要特征包括檢測、自動化操作、事件驅動、模式支持、基于模型的操作,具體如下。檢測管理人員可以使用監視和控制儀器來查看并可選地修改軟件和系統的狀態。自動化操作真正可管理實體的關鍵方面是自動化操作。無人參與的操作和彈性被視為自主計算活動中的成功端點。底層細節例如日志文件檢查和自動流程重啟等全都可由軟件進行處理。通過減少人工輸入,實現自動化就變得可能。集群管理介紹——集群管理的主要特性事件驅動的管理信息性實體是自動提供有關狀態、負載、故障模式等定向信息的實體。IT管理人員了解與實體相關重要問題的最新信息,不會被數據的海洋所淹沒。實現此目的的通常機制是事件所管理實體在出現重要問題時主動發送的消息。事件的示例是給定系統上的負載超過可接受的閾值。系統確定其負載超過已定義的閾值,并發出事件消息。事件的問題在于發出的事件太多,或者更糟的是,事件機制耗盡所管理實體上的寶貴計算資源。集群管理介紹——集群管理的主要特性模式支持軟件和系統需要在指定的環境才能穩定地工作的模式基于模型的操作針對管理的模型支持領域非常零散,每種模型各有優點和缺點,最大的缺點是分離。管理功能通常表現為外接程序,是開發結束前或開發完成后連接到軟件上的組件。集群管理介紹——集群管理發展趨勢集群管理具有應用更為集中、部署更為簡便、系統監控更為完善和管理更為方便的發展趨勢。集群管理發展趨勢應用集中部署簡便系統監控管理方便集群管理介紹——集群管理發展趨勢集群管理發展趨勢應用集中企業需要對諸多的應用系統進行集中化管理,眾多的信息數據需要被集中化處理。信息系統集中分為應用系統集中、數據集中、管理集中和控制集中這4個層次。應用的集中管理,將分散的資源進行集中的管理,從而讓資源發揮了更大的效用,由此降低各種費用。提高利用率、降低成本、集中管理,是目前的大勢所趨。部署簡便現代企業有對于信息化系統的依賴日益增加,服務器數量也不斷增加,維護與升級都要求相應的專業能力,由企業用戶自行安裝很困難使用集群化管理后,企業所需的各類管理系統可以快速部署給各類用戶,無論是單位內部用戶還是外部工廠用戶,也不管用戶的具體位置在何處,均可以由管理員統一安裝發布。所有安裝維護不需要到現場進行,管理員可輕松完成。集群管理介紹——集群管理發展趨勢集群管理發展趨勢系統監控通過對各種網絡參數的監控,保證服務器系統的安全運營,并提供靈活的通知機制以讓系統管理員快速定位、解決存在的各種問題。管理方便隨著操作系統的普及,以及CPU的性能和穩定性的不斷提高,有效的管理可以大大的提高工作效率。管理員可以通過簡單的操作,處理各種問題。集群管理工具簡介集群管理工具可以幫助用戶通過圖形化界面或者命令行實現集群的管理功能,常見的集群管理工具有AIMax、華為eSightServer、浪潮BCP和SmartKit等。集群管理工具簡介——AIMaxAIMax是基于Kubernetes容器調度引擎的集群管理工具,通過計算任務需求,動態調配計算資源池,提高資源利用率,并實現計算任務的高可用性。用戶可以在線提交任務,并通過管理控制臺查看任務的運行狀態、資源消耗情況和運行日志。任務運行結束后,AIMax可以針對任務日志生成ROC曲線、準確率或其他針對深度學習的可視化分析。系統也提供相應的接口,允許用戶導出訓練或優化后的模型。用戶能夠通過管理控制臺對計算資源節點,資源分區,用戶進行管理。管理界面也提供資源面板來顯示群集以及節點的硬件健康狀況。整體系統的安全可以根據不同的應用場景或需求設置不同的應用權限,達到最細致的權限控制。集群管理工具簡介——AIMaxAIMax有強大的數據存儲管理功能,根據配額,為不同的用戶創建存儲區域,用于存放訓練數據、模型以及程序文件,且不同用戶的存儲區域相互隔離。用戶可以通過標準存儲客戶端對其文件進行管理。AIMax的數據存儲以GlusterFS為基礎,支持TCP/IP,InfiniBand,Omni-PathArchitecture高速網絡互聯,在擴展性、可靠性、性能、可維護性等方面具有獨特的優勢。集群管理工具簡介——AIMaxAIMax的獨特優勢高可用:支持將數據備份后寫入不同存儲節點,確保數據副本一直可用。通用硬件:采用開放式設計,不與定制化的專用硬件設備捆綁,大幅節省了硬件投入成本。去中心化:架構上實現了元數據訪問分散化,提高了存儲系統的可用性和冗余性。擴展性和高性能:彈性哈希(ElasticHash)算法解除了對元數據服務器的需求,消除了單點故障和性能瓶頸,真正實現并行化數據訪問。高可靠性:支持自動復制和自動修復功能來保證數據可靠性。集群管理工具簡介——華為eSightServer華為eSightServer管理套件是面向華為全系列服務器集群化的全新運維解決方案,實現了從服務器上電到退服全生命周期的精細化管理。從極速智能化交付階段到日常運維管理,均可通過可視化方式進行自動化管理,幫助企業用戶更有效簡化服務器的運維管理,提升運維效率,全面降低運維成本。集群管理工具簡介——華為eSightServer智能安裝,自動交付。支持自動設備發現、管理IP自動配置、智能化配置部署、自動化批量部署等特性,1天即可實現1000臺服務器的安裝配置管理,提升交付效率高達100%。主動預防,快速診斷。支持7×24小時告警監控,提供遠程通知、性能管理等特性,設備仿真面板和拓撲圖等工具幫助實現可視化診斷,有效減少設備80%停機時間。智能升級,簡化運維。支持版本在線檢測、版本自動比對,可實現流程化升級任務,提供在線固件打包工具,同時兼容多款設備及部件,提升運維效率高達80%。集群管理工具簡介——浪潮BCP浪潮BCP的功能異常強大,具有簡單易管理、靈活的容災、靈活擴展廣兼容、虛擬環境跑不停、完善的監控體系、靈活的部署形式等特點。集群管理工具簡介——浪潮BCP簡單易管理浪潮BCP軟件設計采用中文界面,可以遠程管理并支持郵件故障通知。采用人性化的向導提示設計理念,可輕松、快速構建集群,并實現在線的編輯方式,集群配置信息直接上傳到集群并生效。BCP軟件還支持集群配置文件的導入、導出和離線編輯,稍作修改就可輕松配置出大量結構相似的集群。在發生故障更換服務器時,只需要將備份的配置文件導入新服務器即可迅速完成恢復。集群管理工具簡介——浪潮BCP靈活的容災浪潮BCP軟件不僅支持共享、鏡像等多種業務連續保護模式,同時也支持遠程容災功能,并且BCP軟件創造性地將鏡像模式應用于遠程共享模式中,實現容災功能。通常的遠程容災解決方案,對網絡環境要求高、實施復雜、實現成本也比較昂貴。而利用BCP軟件的遠程容災功能,不但能夠異地備份業務數據,還可以對軟硬件資源進行監視,在主機發生故障時,還能夠自動在備份主機恢復業務。將業務服務的停止控制在最小限度。集群管理工具簡介——浪潮BCP靈活擴展廣兼容BCP軟件在設計過程中充分考慮到了用戶未來業務的發展需求,具有靈活的擴展性和廣泛的兼容性。BCP軟件最多可支持32主機,同時支持目前國內主流的Windows和Linux操作系統平臺。虛擬環境跑不停BCP軟件能實現對虛擬機環境的完美支持。當虛擬機上運行業務發生故障時,BCP軟件可以將其切換到另外一個虛擬機。虛擬機軟件本身發生故障,或者物理服務器發生故障,BCP軟件能夠將虛擬計算機整個切換到另外一臺物理服務器上,實現全方位的保護。集群管理工具簡介——浪潮BCP完善的監控體系浪潮BCP軟件提供二十多種獨立的監視功能模塊,包括對本地磁盤,共享存儲,網絡環境

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論