容錯服務器技術介紹_第1頁
容錯服務器技術介紹_第2頁
容錯服務器技術介紹_第3頁
容錯服務器技術介紹_第4頁
容錯服務器技術介紹_第5頁
已閱讀5頁,還剩28頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

TheStratus?ftServer?WSeriesFamilyV090402容錯概念按時間劃分的故障的分類永久性故障permanent永遠持續下去直至修復為止間歇性故障intermittent短暫的,但卻是斷續的,既有其偶然性,又有其不定期的重復性偶然性故障transient暫時的,且可能是非重復性的間歇性故障和偶然性故障占所有現場失效的90%消除其影響是容錯技術研究的重點課題容錯技術發展60‘70‘80‘90‘2000‘專有容錯系統軟件容錯系統硬件容錯系統單機雙機Cluster集群Stratus的容錯產品線ftServerW-SeriesWindows-basedsolutionftServerT-Series/L-SeriesTelco/EnterpriseLinuxSolutionftServerV-SeriesVOSUNIXsolutionContinuumVOSUNIX&HPUNIXsolutionStratus的服務領域所有持續可用性屬于必須的地方任何停機時間都是不能容忍的場合委曲求全的“容錯”方案

——ClusterHA方案,HighAvailability但這并不是真正意義上的容錯!!!或者,我們就使用容錯計算機在整個設計過程中無時不刻不為可靠性考慮的產品硬件級的容錯提供實測高達99.9997%的可靠性使用標準的intelXEONCPU運行標準的MicrosoftWindows2000AdvancedServer/Windows2008EnterpriseEdition不會出現軟件切換不會因為硬件故障導致應用失敗在線更換部件……CA方案,ContinuousAvailability服務器可用性級別的概念InternationalDateCorp.(IDC)AL0-1ConventionalServersAL2-3BusinessCriticalAL4MissionCriticalAL4---關系到整個企業甚至公眾的關鍵應用AL2-3---關系到企業和政府的日常運行AL0-1---關系到計算機的應用和普及服務器可用性級別的定義不同技術的可靠性對比方案可靠性99.999%99.99%99.9%99%容錯服務器獨立服務器使用外部磁陣的獨立服務器簡易的集群系統消除單點故障的集群系統大型主機開始考慮總成本(TCO)吧!典型IT環境的構建與運行費用分析

一個IT環境5年總費用的典型例子“Thesmallestelementofthecostofrunningservers

isactualserverpurchaseprice.”

JayBretzmannDirectorofIBM’sxSeriesMarketingStratusTechnologies1980--硬件級容錯計算機系統廠商Stratus成立1981--首先推出基于硬件的容錯計算機系統1988--建立世界上第一個提供24小時服務的遠程服務網1990—推出世界上第一個容錯的UNIX操作系統-FTX1991--推出RISC結構的XA/R系列容錯計算機系統1995--推出RISC結構的Continuum系列容錯計算機系統1997--推出容錯的HP-UX操作系統2001--推出世界上第一臺Windows2000硬件容錯服務器ftServerStratusTechnologiesftServer?的研發基于行業標準的容錯體系結構硬件容錯機制對標準操作系統的進一步增強為可靠性、可用性最高要求而組建的客戶服務在過去的28個月中研發申請了42項專利技術TheSmarterApproachtoUptimeTMINVESTCORPIntelOtherMidOceanPartners雄厚的資金20多年的容錯研究經驗MidOceanPartnersStratus的合作伙伴在操作系統可靠特性上密切合作內存重新同步強化驅動程序支持核心業務應用程序的模式ftServer?

服務器被布署在Redmond測試實驗室中長期良好的合作計劃可以提前使用最新芯片進行整合測試ftServer?

服務器被布署在intel實驗室中ftServer?

服務器被布署在EMC認證實驗室中EMCCLARiiON?的代理關系合作支持模式ContinuousProcessing?

ContinuousProcessing?Systems硬件冗錯SecondGenerationftServer?FamilyPassiveBackplaneStratusSSPASICPCIDuplex

ExpansionI/O6600SeriesTMR6600StratusSNPASICCPUN-waySMPChipsetMemoryStratusSSPASICPCIDuplex

CoreI/ODMR6600StratusSNPASICCPUN-waySMPChipsetMemoryStratusSNPASICCPUN-waySMPChipsetMemoryLockstepCPUs鎖步技術(LockstepTechnology)6600參與相同計算的冗余部件保證了系統遠離停機PassiveBackplaneSSPSSPSNPSNPI/OI/O正常工作的容錯機CPUCPU1+1=?1+1=?MEMMEM22DiskDisk所有運算在不同板上同時進行I/O板CPU/MEM板當CPU板出問題時…PassiveBackplaneSSPSNPI/OI/OCPUCPU1+1=?1+1=?MEMXDiskDiskSNPSSP2MEM2任何一塊CPU板上的任何部件損壞,都不會影響系統的正常運行。正在進行的運算和操作會象沒發生問題一樣繼續下去。I/O板CPU/MEM板如果I/O板再出問題呢?PassiveBackplaneSSPSNPI/OI/OCPU1+1=?DiskDiskSSP2MEM2X任何一塊I/O板上的任何部件損壞,也不會影響系統的正常運行。正在進行的運算和操作同樣象沒發生問題一樣繼續下去。I/O板CPU/MEM板Cluster會如何呢?I/OCPU1+1=?MEM2I/OCPU1+1=?MEM2Disk0100010110100010101010111010111010010110001100011101X1+2=3CPU、內存和等待I/O的所有數據丟失,數據庫、應用、文件系統都沒有被安全關閉需要時間等待備機檢測到故障發生需要時間和運氣進行磁盤組切換、需要時間和運氣進行文件系統檢查需要時間重新啟動應用程序,需要重新進行一些運算以回到斷點需要時間和運氣重新啟動數據庫并進行數據庫修復工作最重要的是:切換并不一定總是成功!!!系統A系統BHA與CA的區別HACA交易丟失選擇新平臺業務延滯故障出現故障恢復容錯服務器的可靠性數學基礎容錯技術的可靠性數學模型------連續可靠性容錯設計架橋式結構CPUI/OCPUI/O集群技術的可靠性數學模型------提高可靠性避錯設計平行式結構CPUI/OCPUI/O當我們有徹底避免災難的方案時

為什么還要選擇災難恢復方案呢災難恢復Clusters,Mainframes災難預防ftServer“Whychooseaserverdesignedtorecoverfromafailure,ratherthanaserverdesignednottofail?”

VernonTurner,IDCContinuousProcessing?ContinuousProcessing?Systems瞬時硬件故障通過軟件屏蔽掉強化的驅動程序可預防軟件故障軟件的問題被可靠地捕捉、分析和糾正內存和硬盤中的數據均被可靠地保護高度地集成;錯誤防真測試故障預防FailsafeSoftware軟件可靠性預防、診斷并解決軟件問題容錯操作透明的

I/O切換完善的熱插拔支持系統保護錯誤診斷和隔離PCI總線保護驅動模式在線診斷主動式維護接口兼容Microsoft?WMI

驅動模式強化驅動PreventOutagesftServer?Failsafe軟件結構PCIDriversFailoverDriversStratus?HotplugDriverNTOSKERNELVirtualizedLegacyDeviceSupportStratus?HALExtensionsHALContinuousProcessing?$100,000可用性保證計劃名稱PerfectPerformanceAssuredAvailability事件意外的機器硬件、系統軟件或操作系統故障意外的機器硬件、系統軟件或操作系統故障補償Stratus支付$100,000現金Stratus從服務費中作出適當補償產品ftServer6600TMR任何在AssuredAvailabilityPlusserviceagreement內的ftServerftServer?集群技術可靠性指標99.999+%(不受任何其它因素的影響,實際統計結果為99.9997%)99.9%~99.99%(具體水平依賴于實施水平、應用類型、數據規模、切換原因等許多不確定因素)系統體系結構通過系統內部冗余部件配合先進的鎖步技術防止故障,不依賴于其它軟件。結構簡單直觀。使用兩套或兩套以上的計算機、磁盤陣列甚至光纖交換機等通過復雜的拓樸結構再配合以Cluster軟件來實現故障恢復。結構復雜。硬件故障是否會導致應用中斷不會會硬件故障是否會帶來數據丟失不會CPU中、內存中、等待I/O的數據均有可能丟失典型切換時間和應用中斷時間冗余部件鎖步工作,無切換,應用不受任何影響幾分鐘~幾十分鐘不等(具體水平依賴于實施水平、應用類型、數據規模、切換原因等許多不確定因素)。切換期間應用對外無法響應,且切換完成后有可能導致性能下降是否需要做負載均衡不需要不是必需,但不做就浪費一臺機器的計算資源操作系統映像數量單份。只需要一個許可證雙份或多份。每一份操作系統都需要一個許可證與集群技術的對比——1ftServer?集群技術數據庫與應用軟件許可證數量單份。只需要一個許可證雙份或多份。具體看應用軟件的要求應用程序有無移植要求無需要編寫應用程序的切換腳本,并應該做嚴格測試以確保在不同負載下均能正常工作。此外推薦對應用程序作修改以確保可以正確運行在雙機或多機環境中。對數據一致性有無影響無依賴于實施的好壞各部件是否支持在線更換支持通常僅電源、風扇、磁盤支持。維護難易程度易,無需專門培訓需要培訓和演練以熟悉Cluster軟件服務技術

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論