華為公司雙機(jī)容災(zāi)解決方案_第1頁
華為公司雙機(jī)容災(zāi)解決方案_第2頁
華為公司雙機(jī)容災(zāi)解決方案_第3頁
華為公司雙機(jī)容災(zāi)解決方案_第4頁
華為公司雙機(jī)容災(zāi)解決方案_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、關(guān)于因機(jī)房溫度過高導(dǎo)致HP小型機(jī)宕機(jī)的說明和建議中國惠普有限公司1 HP小型機(jī)的降溫和感溫工作機(jī)制1.1工作原理惠普Superdome 、rp8400、N、L系列小型機(jī)降溫部件是大功率風(fēng)扇,其中Superdome有六個風(fēng)扇,rp8400前后共有21個風(fēng)扇,N、L系列主機(jī)本身都有8個風(fēng)扇,前后各兩個,側(cè)面有四個。另外,機(jī)器的每個電源都各自帶有一個風(fēng)扇。Superdome、rp8400、N、L系列的感溫和控溫原理是相同的,所以我們以N系列為例來闡述其工作機(jī)制?;萜誑系列小型機(jī)感溫部件及風(fēng)扇控制部件都是一塊叫做“Platform Monitor board”的監(jiān)控卡。圖1是這塊卡的實(shí)物照片,它還負(fù)責(zé)

2、監(jiān)控和記錄系統(tǒng)各部件的運(yùn)行狀況,包括系統(tǒng)電源,處理器,內(nèi)存等等。 圖 1 Platform Monitor board實(shí)物圖圖2是它的電路連接圖,可以看到Platform Monitor board是 圖2 Platform Monitor board電路連接圖塊功能強(qiáng)大的卡。其中它的U15就是一個溫度感應(yīng)器,專門感應(yīng)環(huán)境溫度(機(jī)房溫度)。通過這個溫度感應(yīng)器,Platform Monitor board可以通過改變機(jī)器自帶8個風(fēng)扇的轉(zhuǎn)速,來調(diào)整機(jī)器的溫度。電源的風(fēng)扇轉(zhuǎn)速不被其控制,但一旦電源風(fēng)扇出問題,Platform Monitor board可以及時監(jiān)控到,并作出相應(yīng)的動作。圖3是N系列主

3、機(jī)的俯視圖,圖中紅色的部分是Platform Monitor boar。 圖3 N系列主機(jī)的俯視圖1.2HP小型機(jī)的數(shù)據(jù)保護(hù)功能 當(dāng)室溫在31攝氏度以下,感應(yīng)器認(rèn)為機(jī)房溫度處于Normal(正常)狀態(tài)。當(dāng)室溫超過31攝氏度,Platform Monitor board就會通過提高風(fēng)扇轉(zhuǎn)速來提高機(jī)器散熱能力保持機(jī)器正常運(yùn)行。同時它會發(fā)出一個OVERTEMP_CRIT的信號給系統(tǒng)板的“Ralf”芯片,“Ralf”就會將“Dillon”芯片的錯誤寄存器中的一位置位?!癉illon”會發(fā)一個中斷行給一個叫“Elroy”的IO芯片。最后“Elroy”會發(fā)一個中斷請求給操作系統(tǒng)。當(dāng)操作系統(tǒng)受到這個中斷請求

4、(或者每隔10秒它會去檢查“Dillon”寄存器的狀態(tài)),它會通過PDC(processor dependency code)去訪問“Dillon”寄存器并得到錯誤狀態(tài)。然后操作系統(tǒng)會把這個出錯消息發(fā)給一個叫做“envd”的守護(hù)進(jìn)程。(“envd”這個守護(hù)進(jìn)程主要監(jiān)控室溫和機(jī)器的風(fēng)扇運(yùn)行狀況,通過改變它的配置文件“/etc/envd.conf”,可以對其進(jìn)行一定的控制)再由“envd”做出相應(yīng)的動作。當(dāng)發(fā)出OVERTEMP_CRIT信號(超過31攝氏度)時,“envd”的缺省反應(yīng)是不做動作,但可以通過改變“/etc/envd.conf”來執(zhí)行用戶所需用的動作。 當(dāng)室溫超過35攝氏度,Platf

5、orm Monitor board會發(fā)出一個OVERTEMP_EMERG的信號,通過以上相似的過程最后發(fā)給“envd”。這時“envd”的缺省反應(yīng)是執(zhí)行“/usr/sbin/reboot qh”來關(guān)閉機(jī)器。我們也可以通過改變“/etc/envd.conf”來執(zhí)行用戶所需用的動作。 當(dāng)室溫超過40攝氏度,Platform Monitor 就會直接關(guān)閉系統(tǒng)的電源。同時發(fā)出log給系統(tǒng)的錯誤寄存器。 綜上所述,HP這樣設(shè)計的目的在于萬一因意外事故導(dǎo)致機(jī)房溫度過高,小型機(jī)能夠保護(hù)用戶的數(shù)據(jù)不至于丟失,保證數(shù)據(jù)安全性,而且具有用戶參與控制的靈活性。實(shí)際上,不僅僅HP,業(yè)界其他UNIX服務(wù)器生產(chǎn)商也遵循這

6、一設(shè)計思想。在具體實(shí)施過程中,用戶可以通過改變“envd” 的配置文件“/etc/envd.conf”,來控制系統(tǒng)超過31攝氏度和35攝氏度的動作。2HP小型機(jī)同類產(chǎn)品的比較 惠普小型機(jī)秉著惠普公司一向所追求高標(biāo)準(zhǔn),高要求的宗旨,在出廠前全都經(jīng)過嚴(yán)格測試,在性能指標(biāo)的各個方面達(dá)到或者超過業(yè)界標(biāo)準(zhǔn)。在業(yè)界受到一致好評,在電信、金融、制造業(yè)等等各個重要行業(yè)得到了廣泛應(yīng)用。借此,惠普公司保持了其在小型機(jī)市場上的優(yōu)勢。 SuperDome,Rp8400, N,L系列小型機(jī)在溫度方面的性能如表一: 表1 SD,rp8400,N,L系列小型機(jī)溫度指標(biāo)和業(yè)界其他的著名廠家的同類產(chǎn)品比較處于同類標(biāo)準(zhǔn),表2是業(yè)

7、界同類產(chǎn)品的溫度指標(biāo)比較:運(yùn)行溫度(攝氏度)非運(yùn)行溫度(攝氏度)溫度最大變化率HP公司SD,rp8400,N系列5 - 35-40 - 7020 攝氏度/每小時IBM RS6000 M8010 - 40沒有數(shù)據(jù)沒有數(shù)據(jù)SUN 10000 10 - 31沒有數(shù)據(jù)沒有數(shù)據(jù) 表2 業(yè)界同類產(chǎn)品溫度指標(biāo)比較從上表可以看出,各UNIX服務(wù)器主要廠家的主流產(chǎn)品的指標(biāo)沒有顯著差別,所以惠普公司小型機(jī)在溫度指標(biāo)方面是完全符合業(yè)界公認(rèn)標(biāo)準(zhǔn)的。詳細(xì)的各廠商性能參數(shù)請查閱下列網(wǎng)址:HP rp8400: Sun 10000: rvers/highend/10000/spec.htmlIBM RS6000 M80: 3

8、對機(jī)房環(huán)境的建議機(jī)房通風(fēng)設(shè)計的最佳方案是采用機(jī)房專用空調(diào),地板下送風(fēng),天棚上抽風(fēng),形成空氣循環(huán)。由于HP小型機(jī)均是從前面吸入冷空氣,從后部排風(fēng)散熱的方式,所以最好在每排機(jī)柜前開設(shè)送風(fēng)口。且前后排設(shè)備之間必須拉開足夠距離。切忌兩排設(shè)備間距過小導(dǎo)致后排設(shè)備吸如前排設(shè)備排出的熱空氣。請參閱后圖:4環(huán)境變化監(jiān)控預(yù)警措施上面已經(jīng)提到溫度變化超出一定范圍時,HP小型機(jī)會做出一系列反應(yīng),包括發(fā)出告警信息等等,但系統(tǒng)缺省的告警信息只顯示在系統(tǒng)控制臺上,這樣不能滿足用戶的要求,因此我們建議:1在envd.conf中調(diào)用shell腳本,把預(yù)警信息顯示在系統(tǒng)管理員的呼機(jī)上,這種方案簡便易行。2HP Operview

9、 IT/Operation提供全面的系統(tǒng)和網(wǎng)絡(luò)管理、監(jiān)控、預(yù)警解決方案。4.1shell腳本預(yù)警ITO可以全面監(jiān)控硬件、操作系統(tǒng)、 數(shù)據(jù)庫、 中間件及應(yīng)用,并可以與envd配合監(jiān)控環(huán)境情況。如果不采用ITO,也可使用預(yù)先編好的script程序與envd結(jié)合, 實(shí)現(xiàn)通過modem呼叫值班人員的呼叫進(jìn)行報警的功能。需要準(zhǔn)備的設(shè)備是一個外接modem、 電話線和自動詢呼機(jī)。將modem連到惠普服務(wù)器上,并將電話線連接到modem上。預(yù)先編好script程序以實(shí)現(xiàn)通過modem撥打自動詢呼機(jī)。例如 /etc/envd.conf配置修改如下:OVERTEMP_CRIT:y/tmp/pager.shOVE

10、RTEMP_EMERG:y/usr/sbin/reboot -qhFANFAIL_CRIT:y/tmp/pager.shFANFAIL_EMERG:y/usr/sbin/reboot -qh在/tmp目錄下編寫名為pager.sh的script程序,該程序具有可執(zhí)行權(quán)限。其內(nèi)容是通過modem撥打指定的自動詢呼機(jī)。當(dāng)溫度超過攝氏31度時或幾個風(fēng)扇壞掉時,envd會將告警信息寫到/var/adm/syslog/syslog.log系統(tǒng)日志中,同時envd會自動調(diào)用程序/tmp/pager.sh撥打值班人員的詢呼機(jī)發(fā)出告警信息。值班人員接到告警信號后就可快速行動,以防止環(huán)境溫度繼續(xù)惡化。此方法實(shí)施

11、成本較小,但報警功能單一,只能撥打自動詢呼機(jī)并以數(shù)字信號表示錯誤內(nèi)容,但仍然是一種有效的預(yù)防方法。4.2HP Openview IT/Operation預(yù)警方案4.2.1 ITO 產(chǎn) 品 簡 介 HP Openview IT/Operation是惠普公司在 HP Openview 平臺上開發(fā)的一套用于鋪助系統(tǒng)管理的工具軟件包,它的其中一個主要功能是根據(jù)用戶的設(shè)置、自動地對系統(tǒng)的運(yùn)行情況進(jìn)行監(jiān)測,發(fā)現(xiàn)故障時能自動報警并可以根據(jù)設(shè)定進(jìn)行相應(yīng)的故障處理。4.2.2. envd 對環(huán)境的監(jiān)控惠普UNIX服務(wù)器是專為企業(yè)級客戶設(shè)計的,其強(qiáng)大的功能、可擴(kuò)展外設(shè)、冗余的設(shè)計可以保證系統(tǒng)滿足企業(yè)客戶的各種要求

12、。對于企業(yè)級客戶而言, 寶貴的數(shù)據(jù)即是企業(yè)的生命。如同其他廠商一樣,為了保證客戶數(shù)據(jù)的完整性、一致性,惠普UNIX硬件及操作系統(tǒng)也設(shè)置了環(huán)境狀態(tài)檢查,保證外界環(huán)境的嚴(yán)重惡化前,系統(tǒng)即可主動采取措施,而不會對數(shù)據(jù)造成損壞。惠普UNIX硬件系統(tǒng)設(shè)有溫度傳感器,可以實(shí)時監(jiān)測環(huán)境溫度。盡管惠普服務(wù)器的風(fēng)扇是多冗余和熱插拔的,如果壞掉一個也不影響使用,但對于服務(wù)器的風(fēng)扇也同樣進(jìn)行監(jiān)控。以保證在多個風(fēng)扇故障時,系統(tǒng)可以主動采取措施,保障數(shù)據(jù)的一致性。惠普操作系統(tǒng)中envd就是監(jiān)測外界環(huán)境狀態(tài)的后臺進(jìn)程。Envd后臺進(jìn)程可以檢查環(huán)境溫度和風(fēng)扇運(yùn)轉(zhuǎn)狀態(tài)。當(dāng)溫度傳感器感應(yīng)到環(huán)境溫度超過告警范圍,或發(fā)現(xiàn)風(fēng)扇故障時

13、,envd后臺進(jìn)程就會根據(jù)狀態(tài)級別,發(fā)出相應(yīng)告警信息給syslogd后臺進(jìn)程。Syslogd后臺進(jìn)程負(fù)責(zé)將告警信息寫入到系統(tǒng)日志外界“/var/adm/syslog/syslog.log”中,以記錄系統(tǒng)異常狀態(tài)。如果envd不能把告警信息傳給syslogd, envd就會直接將該告警信息發(fā)到系統(tǒng)控制臺console上進(jìn)行顯示,以提醒系統(tǒng)管理員。如果狀態(tài)繼續(xù)惡化,環(huán)境溫度超過危險范圍,或多個風(fēng)扇同時故障時,envd后臺進(jìn)程將直接關(guān)閉服務(wù)器,以保護(hù)系統(tǒng),防止文件系統(tǒng)或數(shù)據(jù)庫損壞。請參考惠普服務(wù)器的性能指標(biāo)以確定溫度范圍。系統(tǒng)配置文件/etc/rc.config.d/envd 是控制envd后臺進(jìn)程

14、是否在系統(tǒng)起機(jī)時自動啟動的參數(shù)文件。如果文件中參數(shù)ENVD=1,則每次系統(tǒng)起機(jī)時envd會自動啟動。如果參數(shù)ENVD=0,則系統(tǒng)起機(jī)后envd進(jìn)程不會啟動。缺省是ENVD=1自動起envd后臺進(jìn)程。參數(shù)配置文件/etc/envd.conf是控制envd如何作用的。基本格式如下:event : message_indicatoraction上一行包含“事件:是否記錄到日志文件”。可以識別的事件event包括OVERTEMP_CRIT,OVERTEMP_EMERG,F(xiàn)ANFAIL_CRIT,F(xiàn)ANFAIL_EMERG。Message_indicator只能是“y”或“n”,即是否記錄該事件到系統(tǒng)日

15、志文件/var/adm/syslog/syslog.log 中。Action則為如果發(fā)生該事件系統(tǒng)將采取的動作。參數(shù)描述NORMAL環(huán)境溫度在正常范圍內(nèi)。OVERTEMP_CRIT環(huán)境溫度超過正常運(yùn)行范圍,但硬件系統(tǒng)仍然可以承受。OVERTEMP_EMERG環(huán)境溫度超過硬件系統(tǒng)可以承受的最大范圍,系統(tǒng)即將掉電。系統(tǒng)至少在60秒后才會進(jìn)入overtemp_powerloss狀態(tài)。OVERTEMP_POWERLOSS 機(jī)柜里的硬件自動掉電保護(hù)。FAN_NORMAL所有的風(fēng)扇都運(yùn)轉(zhuǎn)正常。FANFAIL_CRIT一個或多個風(fēng)扇壞掉,但其他冗余風(fēng)扇仍能保障系統(tǒng)正常運(yùn)行。FANFAIL_EMERG損壞的風(fēng)

16、扇個數(shù)過多,系統(tǒng)無法正常運(yùn)行,系統(tǒng)即將自動掉電保護(hù)。FANFAIL_POWERLOSS機(jī)柜里的硬件自動掉電保護(hù)。/etc/envd.conf缺省配置如下:OVERTEMP_CRIT:yOVERTEMP_EMERG:y/usr/sbin/reboot -qhFANFAIL_CRIT:yFANFAIL_EMERG:y/usr/sbin/reboot -qh即溫度告警或風(fēng)扇告警時將在系統(tǒng)日志文件中進(jìn)行記錄,但不采取措施。如果溫度或風(fēng)扇超過系統(tǒng)限度,系統(tǒng)將執(zhí)行“/usr/sbin/reboot -qh” ,快速關(guān)閉系統(tǒng)。對于惠普L系列和N系列服務(wù)器,環(huán)境溫度小于攝氏31度為NORMAL,溫度大于31度為OVERTEMP_CRIT,這時系統(tǒng)報警但可以繼續(xù)運(yùn)行。溫度大于35度進(jìn)入OVERTEMP_EMERG狀態(tài),系統(tǒng)執(zhí)行action,缺省action為“/usr/sbin/reboot qh”快速關(guān)機(jī)。溫度大于40度時進(jìn)入OVERTEMP_POWERLOSS狀態(tài),系統(tǒng)不記錄任何日志文件,直接自動掉電保護(hù)。4.2.3 ITO與envd配合自動監(jiān)測報警功能介紹為防止用戶機(jī)房

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論