




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第2頁 運維服務方案2016年5月18日
目錄1 服務內容31.1服務目標 31.2信息資產統計服務 31.3網絡、安全系統運維服務 41.4主機系統運維服務 61.5存儲系統運維服務 101.6數據安全存儲及災備運維服務 111.6.1傳統的災備方式 111.6.2容災方案的關鍵指標 131.6.3常見的備份策略 141.6.4容災的核心問題 151.6.5容災的實現方式 161.6.6異地容災技術 181.6.7災難恢復級別 201.7容災建設方式 211.7.1企業信息系統保護層次 211.7.2容災技術模型 231.7.3業務平臺的保護業務處理能力的冗余231.7.4數據平臺的保護業務狀態數據的復制 241.7.5接入平臺冗余和貼換241.7.6容災模式容災層次 容災范圍 同級容災或降級容災 2容災技術概述2基于存儲的數據復制技術建設容災系統 2小結 312 運維服務流程 323 服務管理制度規范 343.1服務時間 343.2行為規范 343.3現場服務支持規范 353.4問題記錄規范 354 應急服務響應措施 374.1應急基本流程374.2預防措施 …………374.3突發事件應急策略38 第36頁服務內容服務目標可為提供的運行維護服務包括,信息系統相關的主機設備、操作系統、存儲設備容災的運行維護服務,保證用戶現有的信息系統的正常運行,降低整體管理成本,提高網絡信息系統的整體服務水平。同時根據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好的為用戶的信息化發展提供有力的保障。用戶信息系統的組成主要可分為兩類:硬件設備和軟件系統。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型應用軟件(如:數據庫軟件、中間件軟件等)、業務應用軟件等。通過運行維護服務的有效管理來提升用戶信息系統的服務效率,協調各業務應用系統的內部運作,改善網絡信息系統部門與業務部門的溝通,提高服務質量。結合用戶現有的環境、組織結構、IT資源和管理流程的特點,從流程、人員和技術三方面來規劃用戶的網絡信息系統的結構。將用戶的運行目標、業務需求與IT服務的相協調一致。提供的信息系統服務的目標是,對用戶現有的信息系統基礎資源進行監控和管理,及時掌握網絡信息系統資源現狀和配置信息,反映信息系統資源的可用性情況和健康狀況,創建一個可知可控的IT環境,從而保證用戶信息系統的各類業務應用系統的可靠、高效、持續、安全運行。服務項目范圍覆蓋的信息系統資源以下方面的關鍵狀態及參數指標:運行狀態、故障情況配置信息可用性情況及健康狀況性能指標信息資產統計服務此項服務為基本服務,包含在運行維護服務中,幫助我們對用戶現有的信息資產情況進行了解,更好的提供系統的運行維護服務。機房服務內容包括:機房電源、溫度、濕度信息統計記錄硬件設備型號、數量、版本等信息統計記錄軟件產品型號、版本和補丁等信息統計記錄存儲產品型號、版本和性能等信息統計記錄網絡結構、網絡路由、網絡IP地址統計記錄綜合布線系統結構圖的繪制其它附屬設備的統計記錄機房電源、溫度、濕度要求頻率輸入電壓相位電流開關備注50Hz220V單相2線+地線20A單相交流電參數運行狀態非運行狀態溫度℃10--40—1050相對濕度%8--808--90溫度變化℃10℃10℃硬件設備清單如下表統計:網絡、安全系統運維服務從網絡的連通性、網絡的性能、網絡的監控管理三個方面實現對網絡系統的運維管理。網絡、安全系統基本服務內容:序號服務模塊內容描述提供方1現場備件安裝配合用戶進行,按備件到達現場時間工程師到達現場xxx公司2現場軟件升級首先分析軟件升級的必要性和風險,配合用戶進行軟件升級xxx公司3現場故障診斷按服務級別:7×24小時5×8小時xxx公司4電話遠程技術支持7×24小時xxx公司5問題管理系統對遇到的問題進行匯總和發布xxx公司機房網絡核心交換機信息系統管理單位:維保單位:設備名:設備型號:管理IP:檢查內容參考標準檢查結果檢查結論巡視方法描述巡檢周期硬件運行狀態電源運行狀態□正常□異常風扇運行狀態□正常□異常模塊運行狀態□正常□異常系統運行狀態檢查VLAN狀態□正常□異常配置狀態□正常□異常OSPF狀態□正常□異常日志檢查日志狀態□正常□異常其他檢查內容□正常□異常□正常□異常□正常□異常用戶現場技術人員值守可根據用戶的需求提供長期的用戶現場技術人員值守服務,保證網絡的實時連通和可用,保障接入交換機、匯聚交換機和核心交換機的正常運轉。現場值守的技術人員每天記錄網絡交換機的端口是否可以正常使用,網絡的轉發和路由是否正常進行,交換機的性能檢測,進行整體網絡性能評估,針對網絡的利用率進行優化并提出網絡擴容和優化的建議。現場值守人員還進行安全設備的日常運行狀態的監控,對各種安全設備的日志檢查,對重點事件進行記錄,對安全事件的產生原因進行判斷和解決,及時發現問題,防患于未然。同時能夠對設備的運行數據進行記錄,形成報表進行統計分析,便于進行網絡系統的分析和故障的提前預知。具體記錄的數據包括:配置數據性能數據故障數據現場巡檢服務現場巡檢服務是對客戶的設備及網絡進行全面檢查的服務項目,通過該服務可使客戶獲得設備運行的第一手資料,最大可能地發現存在的隱患,保障設備穩定運行。同時,將有針對性地提出預警及解決建議,使客戶能夠提早預防,最大限度降低運營風險。巡檢包括的內容如下:編號內容1硬件運行狀態檢查項目單板狀態檢查電源模塊狀態檢查風扇狀態檢查整機指示燈狀態檢查機框防塵網檢查機房溫度、濕度檢查設備地線檢查2軟件運行情況檢查項目設備運行情況檢查網絡報文分析設備對接運行狀況檢查路由運行情況檢查3網絡整體運行情況調查網絡運行問題調查網絡變更情況調查網絡歷史故障調查網絡運行分析與管理服務網絡運行分析與管理服務是指工程師通過對網絡運行狀況、網絡問題進行周期性檢查、分析后,為客戶提出指導性建議的一種綜合性高級服務,其內容包括:服務內容服務優點向客戶提供網絡專家電話號碼。保證重大問題第一連線至網絡專家。網絡專家組每周與客戶進行不少于2小時的電話技術交流以最小成本保證及時解答客戶關心的技術問題,并就某一領域技術問題展開深層次溝通。每月向客戶提交CASE匯總分析報告,并可擴展到每年17次(月度、季度、年度)使客戶了解網絡歷史故障情況以及故障預防建議,最大程度減少網絡故障隱患,更高效的進行網絡管理。重要時刻專人值守服務深刻知道保證重要時刻設備穩定運行對客戶成功尤為關鍵,因此,可對客戶提供重要時刻的專人現場值守支持,包括政府客戶的重大會議期間、金融客戶的年終結算日、運營商客戶的生產網重大割接或其它任何客戶認為可能對其業務運營產生重大影響的時刻。如需專人值守,客戶需至少提前3周與授權服務商客戶服務經理聯系。對每位合約客戶,授權服務商均需按事先合同約定提供專人值守服務。客戶如需超出合同約定范圍的更多值守支持,需額外支付相應人力和差旅費用。主機系統運維服務現在造成IT架構不可用的原因有很多,主要包括非計劃性宕機和計劃性宕機兩大類,其中,非計劃性宕機主要是由計算機故障或數據故障引起的;計劃性宕機主要是由于生產系統的數據改變或系統改變引起的。(1)、非計劃性宕機非計劃性宕機主要包括主機宕機、數據故障宕機、存儲故障、人為錯誤、數據損壞、站點故障等。主機故障宕機當主機系統或數據庫服務器出現意外故障并導致服務中斷時,主機系統就會發生故障。數據故障宕機數據故障是指丟失、損壞或破壞關鍵企業數據。數據故障的原因比計算機故障更加錯綜復雜,可能由于存儲硬件、人為錯誤、損壞或站點故障引起。存儲故障單一存儲配置,目前都是采用磁盤RAID技術加熱備磁盤來解決,因此存儲系統的故障主要是由機房電力故障或人為因素導致存儲設備的電源發生故障。人為錯誤人為錯誤包括:誤刪除重要數據或升級語句中不正確的“WHERE”子句更新了比預定更多的行。數據損壞數據損壞通常由I/O堆棧中的故障組件導致,例如,數據庫將I/O作為更新交易的結果,該數據庫I/O將在各個組件中進行傳輸,包括:操作系統的I/O代碼、文件系統、卷管理器、設備驅動程序、主機總線適配器、存儲控制器和磁盤驅動器,直至最后被寫入。I/O堆棧中任何組件發生錯誤或硬件故障,都可能“變換”數據中的一些位,進而導致損壞的數據被寫入數據庫中,這一損壞可能是數據庫控制信息或用戶數據,它們對于數據庫的正常工作至關重要;同樣,磁盤故障也可能損壞數據。站點故障數據保護特性提供了預防災難性事件的能力,這些事件可能在某一段時間內嚴重減緩站點的處理能力,這些事件包括文件損壞、自然災害、電力或通信中斷,甚至恐怖活動。(2)、計劃性宕機計劃性宕機是IT系統在運行階段所不可避免的,但IT系統停機運維會影響到數據庫停止對外提供服務,會對業務運營造成一定影響,特別是對7×24×365的業務系統、計費系統、在線交易系統等。計劃內停機包括例行操作、定期維護和部署新設備等:例行操作指頻繁進行的維護任務,包括備份、性能管理、用戶管理和批處理;定期維護,如安裝補丁和重新配置系統,只是偶爾進行,以更新數據庫、應用程序、操作系統、中間件或網絡;部署新設備包括硬件、操作系統、據庫、應用程序、中間件或網絡的重大升級。申請計劃停機時不僅要考慮計劃的停機時間,同時還要考慮因停機造成的對整個業務系統的影響。數據更改導致的停機對于數據的更改例如增加數據空間、改變數據庫的對象,添加及刪除數據庫對象,對數據庫的參數進行調整等操作,都有可能導致計劃性停機。系統更改而導致的停機由于系統更改導致的停機主要表現在兩方面:一是主機系統的更改,例如更新設備、添加硬件、調整參數造成主機系統重啟;二是數據庫系統的更改,例如數據庫補丁升級,調整一些重要參數需要重新啟動數據庫的運維操作。提供的主機系統的運維服務包括:主機的日常監控,設備的運行狀態監控,故障處理,操作系統維護,補丁升級等內容。主機系統基本服務內容:序號服務模塊內容描述提供方1現場備件安裝配合用戶進行。按備件到達現場時間工程師到達現場設備廠商、xxx公司2補丁服務消除軟件漏洞給系統帶來的安全隱患,并對安裝補丁所引起的系統連鎖反應進行合理的平衡。xxx公司3升級服務對系統進行軟件或硬件的升級,以改進、完善現有系統或消除現有系統的漏洞。xxx公司4現場故障診斷按服務級別:7×24小時5×8小時xxx公司5電話遠程技術支持7×24小時xxx公司6問題管理系統對遇到的問題進行匯總和發布xxx公司7系統優化對客戶系統的括主機、存儲設備、操作系統、提供優化服務。現場值守人員可進行監控管理的內容包括:CPU性能管理;內存使用情況管理;硬盤利用情況管理;系統進程管理;主機性能管理;實時監控主機電源、風扇的使用情況及主機機箱內部溫度;監控主機硬盤運行狀態;監控主機網卡、陣列卡等硬件狀態;監控主機HA運行狀況;主機系統文件系統管理;監控備份服務進程、備份情況(起止時間、是否成功、出錯告警);服務器部分系統管理單位:XX供電公司設備名:設備型號設備序列號管理IP:檢查內容參考標準檢查結果狀態是否正常巡檢方法描述巡檢周期硬件運行狀態電源指示燈▅正常□異常面板指示燈▅正常□異常內置磁帶機▅正常□異常CPU狀態▅正常□異常內存狀態▅正常□異常磁盤狀態▅正常□異常網卡狀態▅正常□異常HBA卡運行狀態▅正常□異常系統檢查系統日志▅正常□異常Mail▅正常□異常文件系統,包括磁盤卷剩余空間▅正常□異常硬件檢測▅正常□異常交換分區▅正常□異常固件版本▅正常□異常補丁包版本▅正常□異常系統鏡像▅正常□異常設備燈狀態▅正常□異常系統故障報告▅正常□異常進程狀態▅正常□異常系統性能檢查CPU利用率▅正常□異常內存利用率▅正常□異常磁盤I/O性能▅正常□異常集群檢查集群進程狀態▅正常□異常集群日志▅正常□異常網絡存儲系統運維服務提供的機房存儲環境(SAN、NAS)運行維護服務是包括存儲的IOPS和Space利用管理,存儲的主動IOPS性能和Space利用管理對系統運維非常重要。可了解用CIFS、iscsi、FC.FCoE、NFS協議運行狀況,通過性能管理可了解存儲的日常運行狀態,識別存儲的IOPS性能,有針對性地進行性能優化。同時,密切注意存儲系統的變化,主動地預防可能發生的問題。存儲主機規劃主機名HostName分區Space應用ApplicationOS版本HA版本HBA型號IOPS(64K\512K)存儲故障單一存儲配置,目前都是采用磁盤RAID技術加熱備磁盤來解決,因此存儲系統的故障主要是由機房電力故障或人為因素導致存儲設備的電源發生故障。數據損壞通常由I/O堆棧中的故障組件導致,例如,數據庫將I/O作為更新交易的結果,該數據庫I/O將在各個組件中進行傳輸,包括:操作系統的I/O代碼、文件系統、卷管理器、設備驅動程序、主機總線適配器、存儲控制器和磁盤驅動器,直至最后被寫入。I/O堆棧中任何組件發生錯誤或硬件故障,都可能“變換”數據中的一些位,進而導致損壞的數據被寫入數據庫中,這一損壞可能是數據庫控制信息或用戶數據,它們對于數據庫的正常工作至關重要;同樣,磁盤故障也可能損壞數據。為了減少單一站點的故障,是數據業務連續性,實現數據的異地備份,并在發生意外災難時對數據進行快速恢復,確保客戶的業務持續性。提供的存儲運行維護服務還包括快速發現、診斷和解決性能問題,在出現問題時,及時找出性能瓶頸,解決存儲性能問題,維護高效的應用系統。存儲運行維護服務,主要工作是使用技術手段來達到管理的目標,以系統最終的運行維護為目標,提高用戶的工作效率。數據安全存儲及災備運維服務1.6.1傳統的災備方式說到災難恢復,自然會想到備份。企業關鍵數據丟失會中斷企業正常商務運行,造成巨大經濟損失,容災和備份都是保護數據的有效手段。同時,數據容災與數據備份相互聯系,主要體現在以下幾個方面:數據備份是數據容災的基礎數據備份是系統、數據容災的基礎,也是低端容災的實現,是高端容災(實時數據保護)的有力保障。目前備份技術主要有快照備份、離線備份、異地存儲備份。備份系統通過備份策略,對計算機信息系統的操作系統、文件系統、應用程序、數據庫系統等數據集,實現某一時間點的完整拷貝,拷貝的數據處在非在線狀態,不能被立刻訪問,必須通過相應操作,如恢復等方式使用備份數據。這也解決了高端容災(實時數據保護)不能解決的問題:人為誤操作、惡意性操作等,這類操作,計算機系統是不能區分的,一旦執行,將造成數據中心、災備中心同時修改;對于數據庫系統,在日志方式下,可以通過回滾方式修改,對于文件系統、操作系統等其他配置信息是不能回滾的,將造成毀滅性的結果。因此在建設高端容災系統的前提,一定要做好本地系統的備份,這是容災技術的起點。數據備份是數據高可用的最后一道防線,其目的是為了系統數據崩潰時能夠快速的恢復數據。雖然它也算一種容災方案,但這種容災能力非常有限,因為傳統的備份主要是采用數據內置或外置的磁盤機進行冷備份,備份磁盤同時也在機房中統一管理,一旦整個機房出現了災難,如火災、盜竊和地震等災難時,這些備份磁盤也隨之銷毀,所存儲的磁盤備份也起不到任何容災功能。雙機熱備的備份方式面對災難各大容災廠商首先所提出的容災解決方案就是雙機熱備技術。雙機熱備技術是基于應用切換的原理即整個容災系統由兩套業務系統和共享一個存儲陣列所構成。一但主服務器出現異常或故障,備份服務器立刻接管主服務器的應用。也就是目前通常所說的active/standby方式,主要通過純軟件切換的方式實現雙機容錯。因為兩臺服務器共享一個磁盤陣列上的數據,所以當磁盤損壞的時候就造成兩臺服務器都不可用,這樣就達不到容災的效果。而且通過純軟件來切換的話存在誤切換的情況,就是當主服務器還是正常的時候就把業務系統的連接切換到備用服務器上,這就會造成業務系統的暫時停頓等問題。雙機雙存儲雙機雙存儲即在雙機熱備的基礎上增加一套存儲,實現應用層的切換和底層數據的不間斷復制。其工作原理與雙機熱備類似。數據庫若要能夠正常啟動,必會先檢測其數據文件,日志文件,控制文件等一系列文件的完整性,才可以正常啟動。對于雙機雙存儲的存儲層復制來說是文件層復制,他們無法做到檢測數據的一致性,一旦雙機雙存儲發生的是邏輯錯誤時,無論是主服務器還是備用服務器都將無法啟動。容災不是簡單備份真正的數據容災就是要避免傳統冷備份的先天不足,它能在災難發生時,全面、及時地恢復整個系統。容災按其容災能力的高低可分為多個層次,例如國際標準SHARE78定義的容災系統有七個層次:從最簡單的僅在本地進行磁盤備份,到將備份的磁盤存儲在異地,再到建立應用系統實時切換的異地備份系統,恢復時間也可以從幾天到小時級到分鐘級、秒級或0數據丟失等。1.6.2災備方案的關鍵指標RTO(RecoveryTimeObject)RTO即恢復時間目標:是指“將信息系統從災難造成的故障或癱瘓狀態恢復到可正常運行狀態,并將其支持的業務功能從災難造成的不正常狀態恢復到可接受狀態”所需時間,其中包括備份數據恢復到可用狀態所需時間、數據處理系統切換時間、以及備用網絡切換時間等,該指標用以衡量容災方案的業務恢復能力。RPO(RecoveryPointTime)RPO即數據恢復點目標:是指業務系統所允許的災難過程中的最大數據丟失量(以時間來度量),這是一個與數據備份系統所選用的技術有密切關系的指標,用以衡量災難恢復方案的數據冗余備份能力。容災半徑容災半徑是指生產中心和災備中心之間的直線距離,用以衡量容災方案所能防御的災難影響范圍。顯然,具有零RTO、零RPO和大容災半徑的災難恢復方案是用戶最期望的,但受系統性能要求、適用技術及成本等方面的約束,這種方案實際上是不大可行的。所以,用戶在選擇容災方案時應該綜合考慮災難的發生概率、災難對數據的破壞力、數據所支撐業務的重要性、適用的技術措施及自身所能承受的成本等多種因素,理性地作出選擇。1.6.3常見的備份策略備份策略描述FullBackup完全備份是每次對系統進行完全的備份。當數據發生數據丟失災難時。完全備份所需要的時間最長和消耗的磁帶最多,但恢復時間最短和操作最方便。IncrementalBackup增量備份是備份上一次全備份或者增量備份系統發生改變的數據。這種備份策略的優點時節省了磁帶空間,縮短了備份時間。其缺點在于當災難發生時,數據的恢復比較麻煩而且可靠性比較差。其中任何一盤磁帶出現問題都會影響之后的磁帶恢復。DifferentialBackup差量備份是備份上一次全備份后到系統發生改變過的文件。其優點是無需要每天對系統做完全備份,備份所需要時間短并且節省了磁帶空間。它的災難恢復也很方便。系統管理員只需要全備份和增量備份的介質就可以進行系統的恢復。SyntheticBackup合成備份是當備份窗口較短時進行。在進行合成備份的時候,會從完全備份、增量備份和差量備份中讀取信息,然后創建一個新的完全備份。這種完全備份可以離線進行且網絡還是在繼續使用,不會降低系統性能或者妨礙網絡中的用戶。差異增量備份(DifferentialIncrementalBackup):此備份主要在于每次備份的內容是從上次0級或1級備份以來發生改變的內容。累積增量備份(CumulativeIncrementalBackup):此備份主要在于每次備份的是從上次0級備份以來發生改變的內容。1.6.4容災的核心問題容災適應性指的是容災系統在實施和使用的過程中對原有的生產系統、硬件系統、網絡系統的影響,有的容災系統可能需要凍結原有的生產系統的情況下進行數據的復制,有點容災系統可能要對硬件、網絡環境進行改造,改造成系統所要求的條件。這些對改造對原有的系統和數據都存在一定的風險性。容災可見性指的是容災系統的容災效果是不是可見、可查詢的。有的容災系統的容災效果要等災難發生之后,備用系統恢復之后才能驗證是不是真做到了數據零丟失的效果。如果數據復制失敗不能馬上反應出來同樣達不到容災的效果。所以容災系統的核心問題:能否構建一個綠色容災系統,在實施和使用過程中不會影響原生產系統,無需改造硬件和網絡環境,其容災結果的好與壞又實時可見、可驗證。1.6.5容災的實現方式通常,應用服務器通過SAN訪問存儲資源。針對SAN共享存儲模型進行了進一步的細化,把SAN存儲分為:應用層文件/記錄層塊管理物理存儲設備如下圖所示。SNA共享存儲模型因此,可以從文件/記錄層、塊管理層來實現容災。根據容災的發起端來進行劃分,容災可分為:數據庫級容災:基于數據庫的容災技術傳輸的是SQL指令或者重作日志文件。如Oracle數據庫自帶的DataGuard技術。卷管理級容災:基于主機卷管理軟件的容災技術可以選擇同步或者異步復制方式。存儲目標數據的邏輯卷不能被業務系統所使用,屬于冷容災方式。如VERITASVVR遠程數據復制軟件。網絡級容災:網絡級容災主要是指基于虛擬存儲技術的容災。例如IBM的PPRC.EMC的Mirrorview、HDS的Truecopy復制技術。存儲設備級容災:通過存儲控制器實現的設備級數據遠程鏡像或復制是傳統容災方式中最高效最可靠的方式。基于磁盤系統的同步數據復制功能可實現異地數據的容災。虛擬化存儲產品實現遠程復制1.6.6異地容災技術遠程鏡像技術遠程鏡像技術是在主數據中心和備援中心之間的數據備份時用到。遠程鏡像又叫遠程復制,是容災備份的核心技術,同時也是保持遠程數據同步和實現災難恢復的基礎。遠程鏡像按請求鏡像的主機是否需要遠程鏡像站點的確認信息,又可分為同步遠程鏡像和異步遠程鏡像。同步遠程鏡像(同步復制技術)是指通過遠程鏡像軟件,將本地數據以完全同步的方式復制到異地,每一本地的I/O事務均需等待遠程復制的完成確認信息,方予以釋放。同步鏡像使遠程拷貝總能與本地機要求復制的內容相匹配。當主站點出現故障時,用戶的應用程序切換到備份的替代站點后,被鏡像的遠程副本可以保證業務繼續執行而沒有數據的丟失。但它存在往返傳播造成延時較長的缺點,只限于在相對較近的距離上應用。異步遠程鏡像(異步復制技術)保證在更新遠程存儲視圖前完成向本地存儲系統的基本I/O操作,而由本地存儲系統提供給請求鏡像主機的I/O操作完成確認信息。遠程的數據復制是以后臺同步的方式進行的,這使本地系統性能受到的影響很小,傳輸距離長(可達1000公里以上),對網絡帶寬要求小。但是,許多遠程的從屬存儲子系統的寫沒有得到確認,當某種因素造成數據傳輸失敗,可能出現數據一致性問題。為了解決這個問題,目前大多采用延遲復制的技術,即在確保本地數據完好無損后進行遠程數據更新。快照技術遠程鏡像技術往往同快照技術結合起來實現遠程備份,即通過鏡像把數據備份到遠程存儲系統中,再用快照技術把遠程存儲系統中的信息備份到遠程的磁帶庫、光盤庫中。快照是通過軟件對要備份的磁盤子系統的數據快速掃描,建立一個要備份數據的快照邏輯單元號LUN和快照cache,在快速掃描時,把備份過程中即將要修改的數據塊同時快速拷貝到快照cache中。快照LUN是一組指針,它指向快照cache和磁盤子系統中不變的數據塊(在備份過程中)。在正常業務進行的同時,利用快照LUN實現對原數據的一個完全的備份。它可使用戶在正常業務不受影響的情況下,實時提取當前在線業務數據。其“備份窗口”接近于零,可大大增加系統業務的連續性,為實現系統真正的7×24運轉提供了保證。快照是通過內存作為緩沖區(快照cache),由快照軟件提供系統磁盤存儲的即時數據映像,它存在緩沖區調度的問題。互連技術早期的主數據中心和備援數據中心之間的數據備份,主要是基于SAN的遠程復制(鏡像),即通過光纖通道FC,把兩個SAN連接起來,進行遠程鏡像(復制)。當災難發生時,由備援數據中心替代主數據中心保證系統工作的連續性。這種遠程容災備份方式存在一些缺陷,如:實現成本高、設備的互操作性差、跨越的地理距離短(10公里)等,這些因素阻礙了它的進一步推廣和應用。目前,出現了多種基于IP的SAN的遠程數據容災備份技術。它們是利用基于IP的SAN的互連協議,將主數據中心SAN中的信息通過現有的TCP/IP網絡,遠程復制到備援中心SAN中。當備援中心存儲的數據量過大時,可利用快照技術將其備份到磁帶庫或光盤庫中。這種基于IP的SAN的遠程容災備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好,具有廣闊的發展前景。基于IP的互連協議包括:FCIP、iFCP、Infiniband、iSCSI等。虛擬存儲在有些容災方案產品中,還采取了虛擬存儲技術,如西瑞異地容災方案。虛擬化存儲技術在系統彈性和可擴展性上開創了新的局面。它將幾個IDE或SCSI驅動器等不同的存儲設備串聯為一個存儲池。存儲集群的整個存儲容量可以分為多個邏輯卷,并作為虛擬分區進行管理。存儲由此成為一種功能而非物理屬性,而這正是基于服務器的存儲結構存在的主要限制。虛擬存儲系統還提供了動態改變邏輯卷大小的功能。事實上,存儲卷的容量可以在線隨意增加或減少。可以通過在系統中增加或減少物理磁盤的數量來改變集群中邏輯卷的大小。這一功能允許卷的容量隨用戶的即時要求動態改變。另外,存儲卷能夠很容易的改變容量,移動和替換。安裝系統時,只需為每個邏輯卷分配最小的容量,并在磁盤上留出剩余的空間。隨著業務的發展,可以用剩余空間根據需要擴展邏輯卷。你也可以將數據在線從舊驅動器轉移到新的驅動器上,而不中斷服務的運行。存儲虛擬化的一個關鍵優勢是它允許異質系統和應用程序共享存儲設備,而不管它們位于何處。公司將不再需要在每個分部的服務器上都連接一臺磁帶設備。1.6.7災難恢復級別國家《信息系統災難恢復規范》中根據數據備份系統、備用數據處理系統、備用網絡系統、備用基礎設施、技術支持、運行維護支持、災難恢復預案這七個要素的不同要求,把災難恢復分為6個級別:1.7容災建設方法容災建設項目和業務連續性項目與用戶的業務要求、應用現狀密切相關,并涉及眾多技術和產品以及繁多的供應商,因而屬于建設復雜、風險較高的項目之一。為降低項目風險,保證容災中心建設的成功,選擇有經驗的合作伙伴、并且有成熟實用的方法論指導對信息中心容災建設非常重要。規劃(Plan)——科學的規劃是項目成功的前提。規劃階段需要對企業的IT系統現狀進行評估分析,根據企業的業務發展的要求明確進行需求定義,從而在確定的需求基礎上選擇合適的技術,進行技術架構設計,選擇合適的技術方案并采購相應的產品。建設(Build)——本階段主要是進行技術平臺建設(包括整合、數據遷移等)、測試,建設完整的“災難恢復計劃(DRP)”或“業務連續性計劃(BCP)”。在科學、合理的規劃前提下,建設階段將相對比較有序。管理(Manage)——對容災建設項目或業務連續性項目而言,建設了容災技術平臺及相關的人員、流程要求僅僅是開始,而不是結束,必須定期更新、維護確保能夠滿足不斷變化的業務發展要求。貫穿“規劃、建設、管理”三個階段的是“項目管理和服務集成能力”。容災或業務連續性建設涉及的技術和產品非常廣泛,針對不同的業務應用也可能采用不同的技術方案,這些方案來自不同的廠商;由于業務的相互關聯,不同的技術方案之間也存在密切的聯系,甚至相互依賴。同時,在容災建設過程中,將有多方供應商提供服務支持,能夠協調多方關系,對項目實施進度及質量進行統一控制,對多方服務進行集成調度是“項目管理和服務集成”的重要工作,也是保證項目按時完成并保證質量的重要因素。.1企業信息系統保護層次現代企業的數據中心IT平臺(包括主機平臺、網絡平臺、存儲平臺等)的保護和恢復有不同等級的技術手段,未來企業的業務連續性建設將需要不斷提高企業的信息、數據的保護和恢復的等級。不同層次的數據中心保護如上圖所示,對企業集中化數據中心的IT系統和業務數據進行保護可以有多種不同層次的保護方案,主要分為本地保護和遠程保護兩個方面。企業數據中心面向運營的保護及恢復包括三個層次:平臺保護—主要是平臺的高可用,如采用主機群集系統和高可用存儲平臺(包括SAN網絡環境的高可用和存儲系統的高可用),保證IT平臺沒有單點故障,實現業務和應用的高可用性。數據備份—對業務數據進行經常性的本地備份,在IT系統出現物理故障或邏輯故障時,數據備份都能提供可靠的數據保護。數據恢復—在出現數據錯誤或丟失時能夠進行快速、可預見的數據恢復,減少IT系統的中斷時間,降低對業務運營的影響。建設了完善的本地保護和恢復后,企業需要規劃建設面向災難保護及恢復的“遠程”數據及業務保護,它包括三個層次:遠程的信息保護—是將企業的所有重要數據安全的存儲在遠程站點,提供保護,避免災難性的事件破壞數據。遠程自動處理—除了提供對生產數據的遠程保護外,能夠自動進行系統切換、回切及數據恢復等工作,從而在災難事件發生時能夠快速恢復業務運行。多數據中心保護—通過建設多個數據中心,采用多數據中心的數據保護、恢復技術,防范更大范圍的災難事件。1.7.2容災技術模型容災技術平臺建設是企業業務連續性建設的重要基礎。XXX公司將企業的IT平臺劃分為“接入平臺、應用平臺、數據平臺”三部分,建議企業的容災技術平臺建設應該主要著眼于對業務處理平臺,數據平臺和接入平臺這三個重要的系統領域的保護。容災技術模型示意圖1.7.3業務平臺的保護——業務處理能力的冗余容災技術方案建設中,對于企業的業務平臺的保護,主要表現為對業務處理能力的冗余和復用,其中牽涉:支持應用系統運行的服務器和操作系統等系統軟件支持應用系統運行的存儲器及存儲器和服務器的連接(存儲網絡等)連接服務器的IP網絡系統支持應用系統實現的中間件或數據庫等客戶將需要在容災中心應該配置與需要保護的生產中心相同廠家、相同版本、相同配置的應用服務器、中間件和數據庫。要確保主數據中心和容災中心的軟件運行環境相同。實現業務邏輯的應用軟件系統咨詢服務部門將可以為客戶對上述各方面進行調查評估,分析客戶的當前生產中心業務平臺當前的現狀和特定技術要求,并提出建設容災方案的具體要求。1.7.4數據平臺的保護——業務狀態數據的復制在容災系統中,對數據平臺的保護主要表現為對業務狀態數據的保護、備份和恢復以及復制,需要保護的業務狀態數據包括:業務交易狀態(數據本身的數據屬性為文件、數據庫等)系統狀態-包括應用軟件的初始數據、參數設置、以及系統軟件的配置數據、參數設置等。中間數據(或臨時數據)在容災系統建設中,數據平臺的保護是實現企業災難恢復的核心。保證數據的安全永遠是第一位的,只有支撐企業業務運營的數據能夠及時、完整地復制到容災中心,才可以在災難發生時,在容災中心恢復受災難影響的業務應用。對不同企業,XXX公司將根據需求分析的結果,對企業的不同重要級別的應用或業務單元采取不同的數據復制方法,對不同類型的應用,根據其訪問特點等也將采取不同的數據復制方法。1.7.5接入平臺冗余和切換接入平臺在容災備份系統里,需要實現對外部接口的冗余及切換,其中牽涉:應用數據接口的切換-包括文件傳輸、消息機制等應用連接接口的切換-HTTP連接、數據庫連接、遠過程調用、對象的調用等…網絡連接的冗余和切換–包括城域網網絡連接、撥號連接等等…企業的“接入平臺冗余和切換”的關鍵在于實現在容災中心應該配置相同訪問能力的網絡設備,并在網絡配置上確保能快速、方便地將網絡訪問從主生產中心切換到備份生產中心1.7.6容災模式將根據項目啟動前期的“現狀評估、業務需求分析”等結果,可以從容災層次、容災范圍、運營方式、容災規模等多角度進行綜合分析,得出適用于用戶容災要求的容災模式和運營方式。容災層次根據業務恢復時間的長短可以將容災建設劃分為不同的層次:只做數據的災難保護,僅能保證數據的完整性,此類業務在容災中心只需要配置存儲平臺,實現數據的遠程復制和存儲即可。這種方式可以降低投資,但業務恢復時間很長(一般在3天以上)。數據的災難保護是僅將生產中心的數據完整地復制到容災中心的容災方式。數據的災難保護是異地容災的最低級形式,也是最基本的方式,是實現更高級容災方式的基礎。在災難發生時,僅有數據的災難保護無法保證業務的連續性,僅可以保證數據是可用的,若技術策略選擇得當,可以保證業務數據的完整性。采用這種模式有以下特性:業務恢復速度較慢,通常情況下RTO>72小時業務恢復難度大,需要新增設備實現技術難度比較低運行維護成本較低投資比較節省除數據的災難保護外,實現應用的高可用,確保業務可以快速恢復。容災系統的應用不改變原有的業務處理邏輯,是對生產中心系統的基本復制。這種方式有以下特性:業務恢復速度較快,通常情況下RTO小于24小時,也可以達到幾小時級別業務恢復過程相對簡單實現技術難度比較高運行維護成本較高,如:增加軟件版本管理、軟件部署、維護人員等投資比較高容災范圍根據業務影響分析結果,容災備份存儲平臺項目的業務將劃分為關鍵業務和非關鍵業務兩大類。未來可以根據需要選擇要做容災保護的業務種類,可以先建設關鍵業務容災,未來實現全業務容災。關鍵業務容災:業務需求定義中通過業務影響分析定義關鍵業務的容災全業務容災。同級容災或降級容災根據容災中心配置的處理能力不同,可以分為同級容災和降級容災。若未來的在容災中心為需要進行容災保護的業務系統都配置與生產中心相同處理能力和高可用能力的業務處理平臺(主要是指主機性能,高可用群集等),則為同級容災設計。如果未來的在容災中心為需要進行容災保護的業務系統配置比生產中心的處理能力低或高可用能力降低(比如沒有做群集等),則為降級容災設計。采用同級或降級容災方式取決于業務需求和投資預算,降級容災可以減少投資(在主機方面的投資)。
容災技術概述不同企業的不同業務需求和應用特點將可能需要有不同的容災技術要求,可以采用多種容災技術來建容災系統,XXX專業咨詢服務部將更許客戶的實際需求提供不同的技術方案。對所有客戶的容災技術平臺建設而言,容災方案的技術核心是數據的保護,實現遠程數據復制,并能夠在災難發生時在遠端利用復制數據提供企業業務運營支撐服務,因此數據復制技術是構建容災技術平臺的核心。不同數據復制技術的分類如下:如上圖所示,對容災項目而言,比較可行的是采用連續數據復制技術。根據不同容災方案所采用數據遠程復制技術位于企業IT架構不同層面又可以分為以下三類容災方案:基于存儲層面的容災方案—利用存儲系統的遠程數據復制功能建設容災系統,它包括:同類存儲平臺之間的數據復制;異構存儲平臺之間利用虛擬存儲技術實現數據復制。基于主機層面的容災方案—利用主機廠家提供的相關功能軟件或第三方的主機軟件實現遠程的數據復制,建設容災系統。基于存儲的數據復制技術建設容災系統采用基于存儲的容災方案的技術核心是利用存儲陣列自身的盤陣對盤陣的數據塊復制技術實現對生產數據的遠程拷貝,從而實現生產數據的災難保護。在主數據中心發生災難時,可以利用災備中心的數據在災備中心建立運營支撐環境,為業務繼續運營提供IT支持。同時,也可以利用災備中心的數據恢復主數據中心的業務系統,從而能夠讓企業的業務運營快速回復到災難發生前的正常運營狀態。基于存儲的容災方案示意圖如下:基于存儲數據復制技術的容災方案示意圖采用基于存儲的數據復制技術建設容災系統是目前金融、電信企業、政府采用較多的容災方案,有非常多的應用案例,是容災建設可選擇的技術方案之一。基于存儲的復制可以是如上示意圖的“一對一”復制方式,也可以是“一對多或多對一”的復制方式,即一個存儲的數據復制到多個遠程存儲或多個存儲的數據復制到同一遠程存儲;而且復制可以是雙向的。基于存儲的容災方案有兩種方式:同步方式和異步方式,說明如下:同步方式,可以做到主/備中心磁盤陣列同步地進行數據更新,應用系統的I/O寫入主磁盤陣列后(寫入Cache中),主磁盤陣列將利用自身的機制同時將寫I/O寫入后備磁盤陣列,后備磁盤陣列確認后,主中心磁盤陣列才返回應用的寫操作完成信息。異步方式,是在應用系統的I/O寫入主磁盤陣列后(寫入Cache中),主磁盤陣列立即返回給主機應用系統“寫完成”信息,主機應用可以繼續進行讀、寫I/O操作。同時,主中心磁盤陣列將利用自身的機制將寫I/O寫入后備磁盤陣列,實現數據保護。采用同步方式,使得后備磁盤陣列中的數據總是與生產系統數據同步,因此當生產數據中心發生災難事件時,不會造成數據丟失。為避免對生產系統性能的影響,同步方式通常在近距離范圍內(FC連接通常是200KM范圍內,實際用戶部署多在35KM左右)。而采用異步方式應用程序不必等待遠程更新的完成,因此遠程數據備份的性能的影響通常較小,并且備份磁盤的距離和生產磁盤間的距離理論上沒有限制(可以通過IP連接來實現數據的異步復制)。采用基于存儲數據復制技術建設容災方案的必要前提是:通常必須采用同一廠家的存儲平臺,通常也必須是同一系列的存儲產品,給用戶的存儲平臺選擇帶來一定的限制。采用同步方式可能對生產系統性能產生影響,而且對通信鏈路要求較高,有距離限制,通常在近距離范圍內實現(同城容災或園區容災方案)采用異步方式與其他種類的異步容災方案一樣,存在數據丟失的風險,通常在遠距離通信鏈路帶寬有限的情況下實施。盡管有以上限制,基于存儲的容災技術方案仍然是當前最優先選擇的容災技術平臺,尤其是基于XXX公司的存儲系統建設容災方案有非常廣泛的應用,這主要是由于基于存儲的容災技術方案有如下優點:采用基于存儲的數據復制獨立于主機平臺和應用,對各種應用都適用,而且完全不消耗主機的處理資源;基于存儲得數據復制技術,由于在最底層,實施起來受應用、主機環境等相關技術的影響最小,非常適合于這樣主機和業務系統很多、很復雜的環境,采用此種方式可以有效降低實施和管理難度;采用同步方式可以完全不丟失數據,在同城容災或園區內容災方案中,只要通信鏈路帶寬許可,完全可以采用同步方案,而不會對主數據中心的生產系統性能產生顯著影響。采用XXX基于存儲的同步復制方式的容災案例有很多,有非常多的成功經驗,而目前同城容災環境中已經具備上述條件,可以很方便部署同步方式復制;采用異步方式雖然存在一定的數據丟失的風險,但沒有距離限制,可以實現遠距離保護。異地數據中心,則采用與北京兩個中心的異步復制方式進行數據保護。災備中心的數據可以得到有效利用。對于基于應用、基于主機、基于存儲的三種容災方案而言,災備中心的數據通常不可用,僅為生產系統中的數據提供災難保護和災難恢復。但對采用基于存儲技術的容災方案中,有很靈活的技術手段可以充分利用災備中心的數據,從而提高企業的業務運營效率,帶來更多的投資回報。如下圖所示:基于存儲的容災方案有效利用災備數據如上圖所示,生產中心的“源數據—R1”通過存儲本身的數據復制機制被復制到了災備中心,即“目標數據R2”。“目標數據R2”在正常生產情況下是不可訪問的,災備中心的后備主機只能在災難發生時,主中心服務停止后,才可以訪問“目標數據”,接管主中心的服務(基于主機和應用的容災方案的災備中心數據與此類似)。但采用基于存儲的容災方案時,我們可以為“目標數據”建立一個BCV卷或快照、克隆,從而可以給到另外的服務器使用。利用這種機制,用戶可以在容災中心做很多工作:用戶開發測試人員可以利用R2-BCV或R2快照得到真實的數據進行新應用開發、測試工作,從而保證新應用的質量,加快新產品上市時間。這種方式在采用基于主機方案和基于應用方案都很難實現,或在獲得一份真實數據進行開發測試時需要很長的時間,消耗大量的資源。用戶的其它應用也可以利用R2-BCV或R2快照滿足其它業務的需要。如數據倉庫應用通常需要從生產系統抽取數據,一旦進行大規模數據抽取,生產系統幾乎處于停頓狀態,這時可以利用R2-BCV卷進行數據抽取,從而避免數據抽取給生產系統帶來的巨大性能沖擊。企業的決策分析系統的數據來源也都可以基于R2-BCV來實現。由于以上優點,基于存儲災難保護方案是目前采用最多的災難保護方案。小結基于應用的容災方案、基于主機的容災方案和基于存儲(包括虛擬存儲技術)的容災方案都有各自的適用范圍,適用于不同的災難保護需要。用戶需要根據具體的實際需求來選擇合適的容災保護方案。不同的用戶不同的業務系統、不同應用對容災的要求不同,要求不同的容災服務等級。在未來將按照科學流程和方法,并利用XXX公司在信息存儲管理領域的專業技能和經驗為用戶進行IT環境的評估和業務影響分析,發掘客戶業務需求對容災技術的要求,從而建議最合適的容災方案。對企業而言,選擇容災方案既要考慮選擇合適技術方案,也需要考查實現該方案的產品在技術上是否成熟、可靠,性能和靈活性是否滿足要求,同時也需要考查提供該解決方案的供應商是否有豐富的經驗和認證的技能來保證方案的確實可行并能夠成功實施。運維服務流程建議用戶采用的服務方式為兩種:一種為技術人員現場值守,另一種是定期巡檢結合故障現場服務。技術人員現場值守運行維護服務的基本操作流程如下圖所示:定期巡檢結合故障現場運行維護服務的基本操作流程如下圖所示:服務管理制度規范服務時間接收服務請求和咨詢:在5*8小時工作時間內設置由專人職守的熱線電話,接聽內部的服務請求,并記錄服務臺事件處理結果。在非工作時間設置有專人7*24小時接聽的移動電話熱線,用于解決內部的技術問題以及接聽7*24小時機房監控人員的機房突發情況匯報。服務響應時間:故障級別響應時間故障解決時間I級:屬于緊急問題;其具體現象為:系統崩潰導致業務停止、數據丟失。30分鐘,2小時內提交故障處理方案12小時以內II級:屬于嚴重問題;其具體現象為:出現部分部件失效、系統性能下降但能正常運行,不影響正常業務運作。30分鐘,2小時內提交故障處理方案24小時以內III級:屬于較嚴重問題;其具體現象為:出現系統報錯或警告,但業務系統能繼續運行且性能不受影響。30分鐘,2小時內提交故障處理方案48小時以內IV級:屬于普通問題;其具體現象為:系統技術功能、安裝或配置咨詢,或其他顯然不影響業務的預約服務。30分鐘,2小時內提交故障處理方案5天內技術支持人員在解決故障時,會最大限度保護好數據,做好故障恢復的文檔,力爭恢復到故障點前的業務狀態。對于“系統癱瘓,業務系統不能運轉”的故障級別,如果不能于12小時內解決故障,xxx公司將在16小時內提出應急方案,確保業務系統的運行。故障解決后24小時內,提交故障處理報告。說明故障種類、故障原因、故障解決中使用的方法及故障損失等情況。行為規范遵守用戶的各項規章制度,嚴格按照用戶相應的規章制度辦事。與用戶運行維護體系其他部門和環節協同工作,密切配合,共同開展技術支持工作。出現疑難技術、業務問題和重大緊急情況時,及時向負責人報告。現場技術支持時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽電話時要文明禮貌,語言清晰明了,語氣和善。遵守保密原則。對被支持單位的網絡、主機、系統軟件、應用軟件等的密碼、核心參數、業務數據等負有保密責任,不得隨意復制和傳播。現場服務支持規范運維服務人員要做到耐心、細心、熱心的服務。工作要做到事事有記錄、事事有反饋、重大問題及時匯報。嚴格遵守工作作息時間,嚴格按照服務工作流程操作。現場支持工程師應著裝整潔、言行禮貌大方,技術專業,操作熟練、嚴謹、規范;現場支持時必須遵守用戶單位的相關規章制度。現場支持工程師在進行現場支持工作時必須在保證數據和系統安全的前提下開展工作。現場支持時出現暫時無法解決的故障或其他新的故障時,應告知用戶并及時上報負責人,尋找其他解決途徑。故障解決后,現場支持工程師要詳細記錄問題的發生時間、地點、提出人和問題描述,并形成書面文檔,必要時應向用戶介紹故障出現的原因及預防方法和解決技巧。問題記錄規范根據使用人員提出問題的類別,將問題分為咨詢類問題和系統缺陷類問題二類:咨詢類問題是指通過服務熱線或現場解疑等方式能夠當場解決用戶提出的問題,具有問題解答直接、快速和實時的特點,該問題到現場支持人員處即可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國檢驗管理軟件項目創業計劃書
- 中國家居O2O項目創業計劃書
- 中國激光診斷儀項目創業計劃書
- 中國苦瓜種植項目創業計劃書
- 中國三網融合光通信器件項目創業計劃書
- 中國融合通信(UC)項目創業計劃書
- 中國光網絡項目創業計劃書
- 中國電子信息項目創業計劃書
- 深部開采工程優化設計方法-洞察闡釋
- 樂理面試試題及答案
- GB/T 5288-2007龍門導軌磨床精度檢驗
- 檢驗科梅毒快速檢測室內質控記錄本
- GB/T 1094.2-2013電力變壓器第2部分:液浸式變壓器的溫升
- 2023年莊河市中醫醫院醫護人員招聘筆試題庫及答案解析
- 《社會保障概論》課程教學大綱(本科)
- 溫州市住宅小區(大廈)物業服務達標考核實施暫行辦法
- 《行政法與行政訴訟法》期末復習題及參考答案
- 北京市教育系統
- 《科學技術史》課程課件(完整版)
- 超星爾雅學習通《大學生創業基礎》章節測試含答案
- 第四節-酸堿平衡失常的診治課件
評論
0/150
提交評論