Linu操作系統硬件穩定性指南_第1頁
Linu操作系統硬件穩定性指南_第2頁
Linu操作系統硬件穩定性指南_第3頁
Linu操作系統硬件穩定性指南_第4頁
Linu操作系統硬件穩定性指南_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Linux操作系統硬件穩定性指南〔轉載整合〕CPU和內存疑難問題解答Linux確,即使是世界上最穩定的操作系統也不會對您有什么幫助。本文中,DanielRobbins將告知您如何診斷和修復CPU問題,并告知您如何測試RAM缺陷。通過學習本文,您將學Linux系統到達盡可能好的的穩定性。在Linux世界中,我們中的很多人已患病過令人深惡痛絕的硬件問題之苦。很多人曾經配置了一臺Linux機器、安裝了最寵愛的分發軟件、編譯并安裝了一些附加應用程序并誤、數據毀壞、硬鎖定、還是喪失數據其結果都是一樣的--硬件故障使通常狀況下牢靠的LinuxCPU和RAM問題--在缺陷部件造成一些嚴峻的破壞之前就允許更換它們。假設您正患病不穩定問題并且猜測該問題與硬件有關CPU和內存以確CPU和內存測試仍不失為一個好方法。在測試CPU可放心,系統是符合標準的。CPU問題假設您有一個格外糟糕的CPU,您的機器可能無法引導Linux或僅運行幾分鐘便被鎖CPU是有缺陷的。但更多的是一些不易檢測到的微小的CPUCPU不穩定問題可通過“考驗”CPU來觸發--給CPU測試CPU的一些方法。當聽說測試CPU穩定性的最好方法之一是Linux內建的--驚異。gcc編譯器是測試一般CPU穩定性的一個很好的工具,內核編譯將充分使用gcc。通過在/usr/src/linux名目創立并運行下面的腳本可以對您的機器進展industrial-strength內核編譯壓力測試:cpubuild腳本#!/bin/bash makedep while[“foo“=“foo“] do makecleanmake-j2bzImage if[$?-ne0] then echoOUCHOUCHOUCHOUCHexit1 fi done--一些CPU有斷斷續續的小故障,使得它們在95%的時間里順當地編譯內核,但又不時地使內核編譯崩潰。通常狀況下,這是由于在處理器加熱到肯定溫度〔在該溫度下處理器變得不穩定〕之前可能進展了5個或更多內核編譯。在上面的腳本中,留意調整-j選項,使緊跟它的數字等于系統中CPU的數目加1;“2“,雙處理器使用“3“-j選項告知make程序行平行編譯內核,確保在編譯每個源文件后總有至少一個gcc進程預備就緒--確保CPU承受的壓力到達最大。假設下午不預備使用Linux機器,請連續運行此腳本并讓機器重編譯內核幾個小時。可能的CPU問題假設腳本持續幾個小時運行順當,慶賀您!您的CPU已經通過了第一個測試。但是,上述腳本可能會意外死掉。如何知道是CPU有問題而不是其它的問題呢?假設gcc發出CPU有問題:gcc:Internalcompilererror:programcc1gotfatalsignal11這時,CPU有三種可能的狀態:假設您輸入“makebzImage“重進展內核編譯,并且編譯器死在同一文件上,請連續一遍遍輸入“makebzImage“。假設試了大約十次之后,編譯進程連續死在此特定文件上,〔很少〕gcc編譯器錯誤引起的,該錯誤是由此特定的源文件而不是有問題的CPU觸發的。但是,這些天gcc很穩定,那么這種狀況發生的可能性很小。假設您輸入“makebzImage“重進展內核編譯,并且稍后得到另一個信號11,那么您的CPU很可能快要無法使用了。假設您輸入“makebzImage“CPUCPU〔CPU使用超過肯定時間后會變熱,可能進展過幾次內核編譯后能到達此臨界點〕,CPU故障才不時地顯露出來。搶救CPU假設您的CPUCPU根本沒什么問題--可能只是冷卻不當。您可以檢查以下內容:您的CPU風扇是否已插上?它是否能相對地避開灰塵?通電時風扇確實旋轉〔并以適當的速度旋轉〕嗎?CPU上固定好了嗎?在CPU和散熱片之間有導熱膠嗎?您的機器通風狀況足夠好嗎?外套。然后,用指尖留神地測試散熱片的溫度。假設特別地熱,那么很可能您的散熱片/風扇組合相對于您的特定CPU--CPU尚未患病任何永久性損壞并且仍舊可發揮作用。最終CPU測試內核編譯測試是測試CPUCPU測試方法,或許您期望使用。我將這種方法保存到最終,是由于假設CPU只粗略地冷卻過,這CPU--那些您期望確保即使CPU負載到達極限也能輕松處理的系統。假設您的CPU已經過適當地冷卻,將會通過這個測試,假設沒通過,則需要進一步冷卻。要執行“最終“CPU測試,所做的第一件事是轉到Lm_sensors頁〔請參閱參考資料〕并下載lm_sensors軟件包。源tarball包含各種內核模塊,這些模塊結合了幾乎已內建在全部當今主板上的安康監視功能。一旦正確安裝了軟件包并且裝載〔使用prog/detect/sensors-detect腳本指出裝入哪些模塊消滅在/proc/sys/dev/sensorsCPUCPU和主板sensors-detect腳原來指出引導時裝入哪些模塊。一旦裝入了lm_sensorsCPU夠實時觀看CPU負載和溫度而無須重復地在/proc/sys/dev/sensors中“cat“文件。出于這gkrellm〔請參閱參考資料gkrellm應CPU使用狀況、主板溫度設置和其它一些事情:gkrellm正在運行還有其它與lm_sensors兼容的圖形監視軟件包可用;您會覺察在lm_sensorshome主頁的“鏈接“局部上,列出了很多這種軟件包。最終一步預備步驟是下載cpuburn程序〔請參閱參考資料〕。這個便利的小程序使用機器指令的手工組合為您的特定CPU施加最大的壓力--甚至比重復的內核編譯的壓力還P5和P6AMDK6的特別版本。一旦已將cpuburntarball解包,請讀README文件;它說明如何編譯所包含的cpuburn小程序。root啟動cpuburn程序。然后,觀看CPU溫度讀數上升并變穩,讓cpuburn保持運行大約一個小時。假設重復這些步驟而且CPU溫度持續上升到特別高的溫度〔160華氏度左右將被認為是“特別”高〕,那么您的CPU冷卻系統需要大的調整。假設機器崩潰或鎖定,或cpuburn進程死掉,那么您的CPU冷卻需要改進--或者可能您的特定CPU只是簡潔地不符合“標準”。您可以使用CPUcpuburn程序,恢復正常操作。內存測試擁有一個完全牢靠的CPURAM芯片也很重要。有些人認為SIMMS和DIMMS永久不會壞,從不需要測試。不幸的是,這種想法是錯誤的--壞的內存格外普遍,我們都需要留意內存問題。另有一些人認為假設可能有壞的RABIOS內存檢查會檢測出全部的RAMBIOS內RAM,所以不要讓BIOS檢查給您一種安全的錯覺。壞內存病癥好的,這里有一個壞的RAM,或許現在正在您的機器里面。這里有一些警告跡象指出RAM:當同時裝載大量的程序時,不時有某個程序無明顯緣由地死掉。不時地,翻開一個文件時,顯示文件被毀壞。假設稍后翻開,文件看起來又好了。當抽取tarball(“tarxzvf“)tar頻頻報告tarball時targzip和bzip2上。假設您正經受類似這樣的問題,可能是系統RAM有缺陷。您將確定要使用以下方法測試您的RAM。即使您沒有經受過這種問題,好好地測驗一下系統的RAM仍不失為一個好方法,可確保您將來不會被意外的RAM突發問題所困擾。下面是測試方法。memtest86我們很幸運,有一個安裝在可啟動軟盤上的基于Linux的優秀的內存測試程序。它的名稱為memtest86〔請參閱參考資料獵取該程序〕載tarball。然后,將檔案解包并構建二進制磁盤映象:#tarxzvfmemtest86-2.5.tar.gz#cdmemtest86-2.5#make然后,將一張3.5英寸空白磁盤插入到軟盤驅動器,并輸入:#makeinstall僅幾秒鐘后,就會有一個得意的小內存測試程序在您的3.5英寸磁盤上,預備被引導。--在上床前〔或離開工作時〕開頭測試是一個好方法。要開頭測試,請將開工作時〕開頭測試是一個好方法。要開頭測試,請將3.5英寸磁盤放在驅動器中重引導您的機器。當系統引導時,memtest86程序將馬上啟動:memtest86正在測試開發機器上的RAM。主要的內存突發問題〔比方“死亡”位〕將在幾秒鐘內檢測出來。由特定位模式觸發的故障〔不幸的是這種故障相當普遍可能幾個小時也無法檢測出來,但最終應當會檢測出來。memtest86一檢測到缺陷位,就將在屏幕底部顯示一條消息--測試將連續。當早上翻開監視器時,您會覺察測試已完成,假設在屏幕上看不到任何警告信息,那么RAM確定是好的。但是,假設您連續遇到“壞內存病癥”局部列出的問題,那么您的RAM可能有突發性問題〔這種問題很少發生〕,RAM。解決RAM問題我期望您全部的RAM都運行良好。然而,假設不幸您的RAM有問題,可能沒有全部壞掉--您仍可以實行一些措施來“修復”壞的RAM。首先我建議您查看BIOS安裝程序BIOS安裝程序有稱為“Turbo方式”的內存選項--明顯,假設您啟用了一些與此類似的選項,則應當禁用此選項。還有可能您的BIOS內存定時設置得不正確--您可以嘗試調整它們〔CAS設置memtest86看看這些問題是否已解決。假設內存測試照舊覺察錯誤,那么此時您應當找到錯誤的SIMM或DIMM并將其從您的機器中除去。假設您安裝了多個內存模塊,那么您要僅安裝一個模塊〔或假設您有SIMMS,則可以安裝兩個模塊〕并運行memtest86。輪番測試全部的模塊后,您能夠確定有缺陷的模塊--不必將好的內存模塊也扔到廢物堆里。驅動程序、IRQPCI等待時間LinuxLinux上最穩定的操作系統,也不能發揮其優越之處。在本文中,DanIElRobbins共享他在NVIDIATNT圖形卡使用NVIDIA的加速驅動程序在Linux下工作方面的經受。如同IRQ和PCI等待時間計時器問題-可以使用這些技術,來確保系統不會經受死鎖、不全都行為或數據喪失。不穩定性的諸多緣由穩定性問題通常不是由有缺陷的硬件所引起的成這類問題。當我試圖在Linux下讓我的帝盟ViperV550〔一種基于NVIDIATNT芯片的AGP圖形卡〕使用NVIDIA自己的加速驅動程序時,就開頭了這方面的經受。NVIDIA有它們自己的LinuxNVIDIA、SGI和VALinux的合作結晶。與包括在Xfree864.0中的標準的僅2DNVIDIA3DOpenGL1.2為實現,而不只是Mesa的增加版。所以,總而言之,假設您有基于NVIDIA的圖形卡,則這些加速驅動程序是您期望使用的最終轉變成一次極佳的學習經受,至少可以這么說。在安裝完加速LinuxNVIDIA〔請參閱本文后面的參考資料Xfree86,開頭擺布全部3D應用程序,現在,有應當有的精彩加速。到那時為止,以前我必需重引導到WindowsNT才能利用3D加速。現在,雖然我不介意NT,但必需重引導才能使用3DLinux而重引導機器Linux3D機器死鎖了。鼠標完全一動不動,屏幕凍結,并且必需重引導系統。是圖形卡配置不當呢?或者可能是驅動程序有問題-是它不寵愛基于VIAKT133芯片的Athlon主板問題的過程。雖然,您所遇到的問題不肯定與這完全一樣,但我用來診斷和〔大多數〕解決問題的步驟在本質上是大同小異的,并且也可應用到很多不同類型的Linux硬件問題。首先,硬件ViperV550好象在WindowsNTLinuxV550確實極燙,它的OEM散熱片似乎來不及散熱。死鎖和圖形卡不夠冷卻的事實合在一起說服我轉向PCPowerandCooling〔請參閱參考資料〕,為我的V550購置了一個迷你集成的散熱片/風扇。所以,在我收到VideoCool后,將顯示卡上的OEM散熱片去掉〔造成質保無效〕,清潔TNT芯片,然后將VideoCool固定在芯片上。結果呢?顯示卡不燙了,但死鎖仍舊存在。我從這段特別的經受所吸取的教訓是-假設一開頭就確定系統冷卻充分工作站和效勞器涼快運行的極佳理由。既然已經考慮了發熱問題,我知道死鎖問題不太可能由特別的硬件引起,并且開頭查看其它地方。驅動程序-以及可能的解決方案?我對NVIDIA驅動程序本身是否是問題所在,有點半信半疑。幸運的是,版本的驅動程序剛剛公布,所以我馬上升級,期望它能解決穩定性問題。圓滿的是,它沒有,在上的#nvidia頻道,我與其他人爭論之后,覺察

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論