計算機體系結構論文_第1頁
計算機體系結構論文_第2頁
計算機體系結構論文_第3頁
計算機體系結構論文_第4頁
計算機體系結構論文_第5頁
已閱讀5頁,還剩3頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計算機體系結構計算機體系結構 期末考試論文期末考試論文 題 目 一種容錯實時計算機體系結構的研究與實現 信息工程學院計算機科學與技術專業級 147 班 學 號 姓 名 指導教師 成 績 完成時間 2015 年 12 月 一種容錯實時計算機體系結構的研究與實現 摘 要 為滿足對安全關鍵領域日益增長的可靠性需求 通過對容錯關鍵技術和 多處理器系統的深入研究 提出了一種基于松耦合多處理器體系結構的雙機容錯實 時嵌入式系統設計方案 該方案無縫整合了計算機硬件級 操作系統級 應用級的 容錯技術 以達到從整體上提高系統可靠性的目的 然后 利用馬爾科夫狀態圖法 對該系統進行了可靠性分析和數值模擬 結果表明該設計方案能顯著地從整體上提 高系統的可靠性水平 關鍵詞 雙機熱備份 容錯 實時嵌入式系統 可靠性 Design and Implementation of a Fault Tolerance Real Time Computer Architecture Abstract Based on fault tolerance technique and multi processors system a fault tolerance real time embedded dual system solusion is put forward in this paper The proposed solusion is based upon the loosely coupled multiprocessors architecture this architecture seamlessly integrates the fault tolerance design techniques of hardware level operating system level and application level The system reliability is analyzed by the Markov state diagram The results show that the design scheme can enhance the system reliability remarkably Key words duplicated hot backup fault tolerant real time embedded system reliability 隨著計算機技術的日益成熟 以及計算機硬件成本的迅速降低 各種結構復雜 功能強大 的實時計算機系統被廣泛應用于航空航天器 武器裝備 核電監控裝置和醫療設備等安全關鍵 系統中 確保這些計算機系統的可靠成為人們日益關注的問題 雙機熱備份設計方案可切實提高系統的可靠性 但它主要針對硬件錯誤 對于軟件錯誤卻 無能為力 目前 由于硬件制造技術水平的提高和硬件容錯技術的成熟 軟件錯誤成為導致系 統失效的主要原因 據調查 在具有硬件容錯能力的計算機系統中 其失效 65 來自軟件 早期的實時計算機系統為特定的應用設計專用的硬件和軟件 其最大的缺點是軟硬件的耦 合度大 不利于系統可靠性設計 特別是軟件錯誤容忍設計 隨著實時操作系統技術的日益發 展成熟 實時軟件被分離成為實時操作系統和實時多任務軟件兩部分 實時操作系統實現對硬 件的管理 使得實時多任務應用軟件與底層硬件無關 這種分層的實時計算機體系結構為提出 新的實時計算機容錯體系結構提供了契機 一 雙機容錯實時系統的體系結構 雙機容錯實時系統體系結構是在考慮雙機比較系統的基礎上 結合松耦合多處理機體系結 構 在實現系統隔離的同時 在不同的處理機間通過通道互連實現通信 為在硬件容錯中結合 軟件容錯提供可能 雙機系統的運行狀態定義為 1 如果 A 機與 B 機均正常運行 則將 A 機作為主系統 B 機 作為備份使用 A 機的運行結果作為系統輸出 A 機運行到檢測點 向 B 機發送日志 B 機更新 日志列表 2 如果 A 機正常而 B 機故障 亦將 A 機的運行結果作為系統輸出 同時將 B 機的運 行故障狀態報告 A 機 并向 B 機進行復位控制操作 3 如果 A 機故障 B 機正常 則進行開 關切換操作 B 機進行系統備份任務重調度 B 機運行結果作為系統輸出 向 A 機進行復位控制 操作 并在檢測點更新 A 機日志 保持需要備份的任務的狀態一致 雙機容錯實時系統體系結構結合嵌入式實時系統的體系結構 采用層次結構和模塊結構相 結合的思想 無縫整合計算機硬件 操作系統 應用軟件等三級容錯設計 克服了軟 硬件分 離和脫節的問題 可提高系統的靈活性和可移植性 二 雙機容錯實時系統的設計 雙機容錯實時系統體系結構的每一層均可看作是一個相對獨立的子系統 層中包含不同的 功能模塊 結構如圖 1 所示 圖中分別加入了容錯通信模塊 Multiprocessor Communication for Fault Tolerance MCFT 實時系統 Real Time Operating System RTOS 系統級容錯組 件 任務級大動態冗余組件 圖 1 雙機容錯實時系統體系結構 第一層中加入 MCFT 模塊 作為板級支持包 Board Support Package BSP 的一部分 也是 硬平臺的抽象層 可為操作系統提供統一的界面 提高系統的可移植性 有容錯需求的任務 通過 MCFT 所提供的功能傳遞日志 保持主系統和備份系統關鍵任務的狀態和數據一致 MCFT 屏蔽了底層通信的具體實現細節 使系統的實現與連接介質無關 為保證實時系統從硬件故障和永久軟件故障恢復 采用系統切換方法 在第二層中加入 RTOS 系統級容錯組件 包括系統內核級容錯支持組件 主 備用機切換支持組件和系統自診斷 組件 任務級動態冗余模塊被用于嵌入式實時系統 可使實時系統從暫時軟件故障恢復 這也是 軟件發生錯誤時保證系統實時性的重要措施 一 故障檢測 系統容錯以故障檢測技術為基礎 以各種冗余技術為手段 對于實時系統來說 為提高故 障判別的成功率 故障檢測應該及時準確地定位故障并盡量減小系統開銷 在系統中 故障檢測按層次模型進行 其目的是實現信息隱藏 避免故障跨層次傳播 采 用自診斷的方法診斷系統級的故障 用任務級的檢測診斷應用級的故障 1 系統自診斷 系統自診斷劃分為系統啟動自檢測階段和周期自檢測階段 自動啟動診斷的因素有主 備用 機定時切換和主用機發生故障 周期自檢測階段根據系統需求 周期性檢測外設和通信口 每 個階段對應設備的幾種功能塊 包括 CPU 的自診斷 中斷響應自診斷 串口自診斷 定時器自 診斷 離散量自診斷和 RAM 自診斷等 由于結果比較是實時系統中任何事務處理都需要經歷的步驟 因此把任務級的故障檢測放 到結果判別部分進行 2 任務級動態冗余 任務級動態冗余方法是實時系統中瞬間故障的恢復方法之一 在實時多任務的環境下 充 分利用操作系統提供的功能 為各個基本任務建立后備任務作為冗余 對后備任務進行容錯調 度 從而起到類似于重試或回溯的作用 并利用檢查點技術和傳遞日志法保持主系統和備份系 統狀態的一致性 實現錯誤恢復 根據應用程序的要求 結合任務實時性 采用以下的模型定 義 1 把應用程序 P 分解成多個任務 T P T1 T2 Tn 任務以過程的形式出現 2 當 i j 時 任務優先級 PTi PTj 任務可以根據要求及時占有處理器 實現實時處 理 在每個任務的最后設置檢查點 傳遞日志 3 為各基本任務準備一個后備任務 P T1 T2 Tn 存放在內存中 一般情 況下 后備任務不建立 不占有系統資源 僅在需要時才激活使用 后備任務的優先級比相應 的優先級要高 一旦建立就搶占執行 是某種意義上的重試或程序卷回 4 為實現恢復功能的后備任務 可以與原有任務完全一樣 也可以是替換算法 以下任 務級動態冗余替換算法 能為各個任務產生容錯調度 從而實現任務冗余 Step1 建立任務 T1 T2 Tn Step2 while N 1 N Nmax 系統報警 當后備任務執行了 Nmax 次之后還通不過檢測 就認為系統出現永久故障 系統報警 Nmax 是個閥門值 是由實時要求所決定的 二 主 備份切換 仲裁檢測電路中為主 備用機設置了 看門狗 監視器 當主 備用機處于正常工作狀態 運行于 CPU 上的某一任務周期性地對 看門狗 施加復位信號 看門狗 計數器就不可能產生 溢出觸發信號 當 CPU 出現故障時 看門狗 會輸出一個離散觸發信號并發出報警 此時系統 進行自動切換 讓備用系統機工作 三 利用馬爾科夫狀態圖進行的可靠性分析 一 錯誤模型 雙機容錯實時系統的錯誤模型定義如下 1 系統錯誤的到達過程是一個泊松流 Poisson Process 相繼錯誤到達時間間隔服從負 指數分布 Tf e t 根據泊松分布的平穩增量性質 可知 P N t 2 0 t 即在間隔時 間 t 充分小時 系統連續發生多次錯誤的可能性為 t 的高階無窮小 2 錯誤可分為硬件錯誤和軟件錯誤 軟件錯誤包括操作系統和任務發生的錯誤 另外 硬件錯誤可分為暫態硬件錯誤和永久硬件錯誤 軟件錯誤可分為本機可恢復的錯誤和需要備份 系統恢復塊恢復的錯誤 3 故障的發生是不相關的 部件的失效率 和維修率 是常數 4 故障不傳播 二 利用馬爾科夫狀態圖法評估可靠性 可靠性是指一個系統在一定的環境下和給定的時間內能按預定的要求完成一定功能的概率 圖 2 采用雙機容錯方式下的馬爾科夫狀態轉移圖 圖 2 是利用上述假設構造出的雙機容錯實時嵌入式系統的馬爾科夫狀態 系統運行過程中 的 6 個狀態定義為 狀態 P0 雙機都正常 狀態 P1 系統處于軟件容錯狀態 狀態 P2 系統處于硬件容錯狀態 狀態 P3 硬件系統發生永久失效 系統運行在單機系統中 狀態 P4 系統處于單機軟件容錯狀態 狀態 P5 整個系統失效 由圖 2 可以得到馬爾科夫狀態微分方程 式中 P 為狀態轉移概率矩陣 矩陣方程 方程組 稱為查普曼 柯爾莫戈羅夫 Chapman Kolmoqorov 方程 由此可以解出系統處于任意狀態的概率 狀態 P66 表示系統失效 所以系統的可靠度為 R t 1 P66 t 3 在計算該系統的可靠度時 將狀態 5 作為吸收狀態 對式 3 求該微分方程的數值解 不同 參數下 系統的可靠度值 精度為 10 10 如表 1 所示 三 可靠性對比 用馬爾科夫狀態圖法對采用雙機熱備份方式和采用恢復塊方式的單機容錯系統進行可靠性 分析 在系統軟件失效率 s 0 005 以及硬件失效率 h 0 001 和維修率 0 9 的相同條 件下 在區間 0 1 000 上進行可靠性對比 結果如圖 3 所示 圖 3 三種容錯方式下可靠度隨時間變化曲線 雙機熱備份系統由兩個能完成相同功能的計算機模塊并行執行相同的計算 雙機不能通信 根據 A 機和 B 機周期向仲裁檢測電路發送的自檢信號判斷 A 機系統和 B 機系統的運行狀況 單機備份塊容錯系統中主模塊的運行結構由驗收測試檢驗 若結果通過測試結果 則輸出 否則運行備份模塊 恢復塊在無錯和出錯情況下的響應時間差異很大 應用于實時系統時 恢 復塊必須與時間冗余相結合 結果顯示 本文提出的雙機容錯實時系統比采用單純硬件容錯的 雙機熱備份系統和采用單純軟件容錯的單機備份塊容錯系統的可靠性都有很大的提高 而且隨 著時間的增長 可靠性更為明顯 四 小 結 隨著實時系統在安全領域內越來越多的應用 可靠性已經成為衡量系統優劣的關鍵因素之 一 傳統的雙機熱備份容錯系統只能滿足系統某一方面的容錯需求 為了在硬件 或軟件 出現暫 時或 永久 故障的情況下 系統仍能在規定的時限范圍內完成運算 并輸出正確的結果 本文提 出了一個軟 硬件結合的完整的解決方案 該方案在滿足系統實時性的同時 從整體上提高系 統的可靠性 數值模擬結果表明該系統具有極高的可靠性 參 考 文 獻 1 TAL O MOCOLLIN C BENDELL A Reliability demonstration for safety critical systems J IEEE Trans on Reliability 2001 50 2 194 203 2 陳 宇 實時異常處理技術的探討 J 計算機工程 2004 30 21 61 63 3 呂 勇 謝長生 高三紅 實時測控計算機應用謝的可靠 性保障技術 J 計算機應用 2003 23 6 101 106 4 韓建軍 李慶華 基于軟件容錯的動態實時調度算法 J 計算機研究與發展 2005 42 2 315 321 5 KIM K The distrubuted recovery block scheme in software fault tolerance M S l Wiley 1995 6 陳 宇 高可靠容錯實時系統的支撐技術研究 D 成都 電子科技大學 2004 7 金士堯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論