




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、公司HP-EVA4400存儲硬盤離線數(shù)據(jù)恢復(fù)方法一、故障描述整個EVA存儲結(jié)構(gòu)是由一臺EVA4400控制器,三臺EVA4400擴展柜和28塊FC 300G硬盤構(gòu)成的。由于兩塊磁盤掉線導(dǎo)致存儲某些LUN不可用,某些LUN丟失。由于EVA4400是因為某些磁盤掉線,從而導(dǎo)致整個存儲不可用。因此接收到磁盤以后北亞工程師先對所有磁盤做物理檢測,檢測完后發(fā)現(xiàn)沒有物理故障。接著使用壞道檢測工具檢測磁盤壞道,發(fā)現(xiàn)也沒有壞道。磁盤壞道檢測日志如下圖:二、備份數(shù)據(jù)考慮到數(shù)據(jù)的安全性以及可還原性,在做數(shù)據(jù)恢復(fù)之前需要對所有源數(shù)據(jù)做備份,以防萬一操作不當(dāng)導(dǎo)致數(shù)據(jù)無法再次恢復(fù)。使用winhex將所有磁盤都鏡像成文件,
2、源磁盤的內(nèi)容數(shù)量多,在做數(shù)據(jù)備份的時候要花費很長時間。備份完部分?jǐn)?shù)據(jù)如下圖:三、故障分析及恢復(fù)過程1、分析故障原因由于前兩個步驟并沒有檢測到磁盤有物理故障或者是壞道,由此推斷可能是由于某些磁盤讀寫不穩(wěn)定導(dǎo)致故障發(fā)生。因為EVA控制器檢查磁盤的策略很嚴(yán)格,一旦某些磁盤性能不穩(wěn)定,EVA控制器就認(rèn)為是壞盤,就將認(rèn)為是壞盤的磁盤踢出磁盤組。而一旦某個LUN的同一個條帶中掉線的盤到達極限,那么這個LUN將不可用。即如果EVA中所有的LUN都包含這些掉線的盤,所有LUN都會受影響。掉線兩塊盤導(dǎo)致整個存儲的LUN都不可用的情況就很正常了。而目前的情況是現(xiàn)存8個LUN,損壞7個LUN,丟失6個LUN。需要恢
3、復(fù)所有LUN的數(shù)據(jù)。2、分析LUN的結(jié)構(gòu)HP-EVA的LUN都是以RAID條目的形式存儲數(shù)據(jù)的,EVA將每個磁盤的不同塊組成一個RAID條目,RAID條目的類型可以有很多種。我們需要分析出組成LUN的RAID條目類型,以及這個RAID條目是由哪些盤的哪些塊組成。這些信息都存放在LUN_MAP中,每個LUN都有一份LUN_MAP。EVA將LUN_MAP分別存放在不同的磁盤中,使用一個索引來指定其位置。因此去每個磁盤中找這個指向LUN_MAP的索引就可以找到現(xiàn)存LUN的信息了。3、分析丟失的LUN雖然磁盤中記錄了指向LUN_MAP的索引,但是它只記錄現(xiàn)存的LUN,丟失的LUN是不會記錄索引的。由于
4、EVA中刪除一個LUN只會清除這個LUN的索引,而不會清除這個LUN的LUN_MAP。這時需要掃描所有磁盤找到所有符合LUN_MAP的數(shù)據(jù)塊,然后排除掉現(xiàn)有的LUN_MAP,剩下的LUN_MAP也不一定全是刪除的,也有一些是以前舊的,但此時是無法在LUN_MAP中篩選了,只能通過程序?qū)⑺蠰UN_MAP的數(shù)據(jù)都恢復(fù)出來,人工的去核對哪些LUN是刪除的。4、分析掉線磁盤在前面的故障分析中說了,雖然磁盤沒有明顯的物理故障,也沒有磁盤壞道。但還是會因為性能的原因從EVA磁盤組中脫離。而這些脫離的磁盤中都存放的是一些舊的數(shù)據(jù),因此在生成數(shù)據(jù)的時候需要將這些磁盤都排除掉。但是如何判斷哪些磁盤是掉線的呢?
5、由于LUN的RAID結(jié)構(gòu)大多都是RAID5,只需要將一個LUN的RAID條目通過RAID5的校驗算法算出校驗值,再和原有的校驗值做比較就可以判斷這個條目中是否有掉線盤。而將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中哪些RAID條目中有掉線盤。而這些RAID條目中都存在的那個盤就一定是掉線盤。排除掉線盤,然后根據(jù)LUN_MAP恢復(fù)所有LUN的數(shù)據(jù)即可。5、編寫數(shù)據(jù)恢復(fù)程序上述的故障分析以及解決思路最終都需要使用編程來實現(xiàn)。編寫掃描LUN_MAP的程序Scan_Map.exe,掃描全部LUN_MAP,結(jié)合人工分析得出最精確的LUN_MAP。編寫檢測RAID條目的程序Chk_Ra
6、id.exe,檢測所有LUN中掉線的磁盤,結(jié)合人工分析排除掉線的磁盤。編寫LUN數(shù)據(jù)恢復(fù)程序Lun_Recovery.exe,結(jié)合LUN_MAP恢復(fù)所有LUN數(shù)據(jù)。6、恢復(fù)所有LUN數(shù)據(jù)根據(jù)編寫好的程序去實現(xiàn)不同的功能,最后使用Lun_Recovery.exe結(jié)合LUN_MAP恢復(fù)所有LUN的數(shù)據(jù)。然后人工核對每個LUN,確認(rèn)是否和甲方工程師描述的一致。部分LUN的數(shù)據(jù)恢復(fù)如下圖:四、數(shù)據(jù)驗證根據(jù)甲方工程師描述所有LUN的數(shù)據(jù)可以分成兩大部份,一部份是Vmware的虛擬機,一部分是HP-UX上的裸設(shè)備,裸設(shè)備里存放的是Oracle的dbf數(shù)據(jù)庫。由于我們恢復(fù)的是LUN,無法看到里面的文件,因此
7、需要將這些LUN同過人工的核對哪些LUN是存放Vmware的數(shù)據(jù),哪些是HP-UX的裸設(shè)備。然后將LUN掛載到不同的驗證環(huán)境中驗證恢復(fù)的數(shù)據(jù)是否完整。1、部署Vmware虛擬機的驗證環(huán)境在一臺dell的服務(wù)器上安裝了ESXI5.5虛擬主機環(huán)境,然后通過iSCSI的方式將恢復(fù)的LUN掛載到虛擬主機上。但是在VMware vSphere Client 上掃描vmfs卷,沒有發(fā)現(xiàn)。后來發(fā)現(xiàn)客戶的虛擬主機是EXSI3.5的版本。可能因為版本的原因無法直接掃描到vmfs卷,于是換一種驗證方式。將所有符合vmware虛擬機的LUN里面的虛擬機文件都生成出來,然后通過NFS共享的方式掛載到虛擬主機
8、上,然后將虛擬機一個一個的添加到清單。恢復(fù)的部分虛擬機文件如下圖:2、驗證vmfs虛擬機通過NFS將所有虛擬機都添加到虛擬主機以后,將所有虛擬機都加電開機,發(fā)現(xiàn)都能啟動系統(tǒng)。由于沒有開機密碼無法確認(rèn)虛擬機里面的文件是否完整。后來甲方安排工程師通過遠程到我們的服務(wù)器,將所有虛擬機都開機進入系統(tǒng),驗證虛擬機里面的數(shù)據(jù)都沒問題。虛擬機的所有數(shù)據(jù)都恢復(fù)成功。部分虛擬機開機如下:3、部署Oracle數(shù)據(jù)庫的驗證環(huán)境為了裸設(shè)備恢復(fù)測試和后期的數(shù)據(jù)驗證工作,需要先搭建好oracle 環(huán)境。根據(jù)甲方工程師提供的環(huán)境信息為HP小機Itanium架構(gòu),我公司HP小機為RX2660(Itanium 2), 是同架構(gòu)
9、的兼容版本。于是計劃在此機器上安裝 oracle 單實例軟件。軟件平臺:項目信息操作系統(tǒng)HP-UX B.11.31數(shù)據(jù)庫Oracle .0 Enterprise Edition - 64bit for HPUX 以下是安裝環(huán)境的簡單步驟介紹:1. 環(huán)境檢測# uname -allHP-UX byhpux1 B.11.31 U ia64 1447541358 unlimited-user license本機為IA64架構(gòu),操作系統(tǒng)為 HP-UX ,版本為 B.11.31。然后檢查各部分存儲空間信息,保證空間足夠。 2. 檢測安裝依賴包根據(jù)安裝說明“b19068
10、.pdf”,檢查 oracle10g 所需的補丁包。檢測:# swlist-l bundle |grep "GOLD"# swlist-l patch |grep PHNE_31097如果沒有檢測到的,需要到官方網(wǎng)站下載并安裝。 安裝補丁包:swinstall -s /patchCD/GOLDQPK11i -x autoreboot=true -x patch_match_target=true 3. 創(chuàng)建用戶及組#groupadd dba#useradd -g dba -d /home/oracle oracle#passwd oracle 4. 創(chuàng)建
11、目錄并修改權(quán)限創(chuàng)建目錄:#mkdir p/opt/oracle/product/10.2/oracledb #chown -R oracle:dba/opt/oracle/ 修改權(quán)限:#chown oracle:dba/usr/oracle_inst/database/#chmod 755/usr/oracle_inst/database/ 5. 設(shè)置環(huán)境變量vi /home/oracle/.profile 6.安裝oracleOracle的安裝要求起圖形界面,所以要先測試圖像界面能夠正常啟動。#exoprt
12、160; DISPLAY=.0:0$./runInstaller圖像界面起來之后的安裝就比較簡單了,這里只安裝軟件,不安裝實例。7.測試數(shù)據(jù)庫連接#su - oracle$sqlplus / as syssdba4、驗證Oracle數(shù)據(jù)庫1、 掛載裸設(shè)備由于有部分LUN是裸設(shè)備,而我們恢復(fù)的LUN都是以文件的形式存在。因此需要將文件形式的LUN掛載到HP-UX上。在HP-UX服務(wù)器上安裝iSCSI Initiator,安裝步驟如下:檢測軟件包是否完整#swlist -d /tmp/B.11.31.03d
13、_iSCSI-00_B.11.31.03d_HP-UX_B.11.31_IA_PA.depot安裝軟件包#swinstall -x autoreboot=true -s /tmp/B.11.31.03d_iSCSI-00_B.11.31.03d_HP-UX_B.11.31_IA_PA.depot iSCSI-00將iSCSI的可執(zhí)行文件添加到PATH#PATH=$PATH:/opt/iscsi/bin/檢測iSCSI是否安裝成功#iscsiutil -l配置iSCSI的啟動器名稱#iscsituil /dev/iscsi -i -N iqn.2014-10-15:LUN配置掛載目標(biāo)iSCSI設(shè)
14、備#iscsiutil -a -I 刪除目標(biāo)iscsi設(shè)備#iscsiutil -d -I 驗證目標(biāo)iSCSI是否掛載成功#iscsiutil -pD發(fā)現(xiàn)目標(biāo)target設(shè)備#/usr/sbin/ioscan -H 255為目標(biāo)創(chuàng)建設(shè)備文件#/usr/sbin/insf -H 255 2、 導(dǎo)入外部VG信息創(chuàng)建VG節(jié)點#mkdir /dev/vgscope/創(chuàng)建VG設(shè)備文件名#mknod /dev/vgscope/group c 64 0x030000查看PV是否正常#pvdisplay -
15、l /dev/dsk/c2t0d0/將PV導(dǎo)入VG中#vgimport -v /dev/vgscope /dev/dsk/c2t0d0激活VG信息#vgchange -a y vgscope查看VG信息#vgdisplay -v vgscope 3、 修改LV名稱由于是在新的環(huán)境上重建的VG,然后再將PV導(dǎo)入到新建的VG中。因此LV的名稱全部都改變了,需要手動的去將LV的名稱都改成和以前一下的。因為原來數(shù)據(jù)庫實例是有2個,并且是使用的裸設(shè)備存儲。所以在創(chuàng)建數(shù)據(jù)庫實例時,要按按照原來配置和命名。文件系統(tǒng)層面,在同時協(xié)助下,掛載了
16、所有LV,并修改權(quán)限。 安裝數(shù)據(jù)庫實例,根據(jù)原始配置,在客戶DBA協(xié)助下,安裝并識別到所有裸設(shè)備文件。然后調(diào)整配置參數(shù),檢測數(shù)據(jù)庫存儲狀態(tài),為啟動數(shù)據(jù)庫做準(zhǔn)備。 1.首先切換到實例 scope(最重要)。,啟動數(shù)據(jù)庫。SQL>startup mount;SQL>select file#,error from v$recover_file; -查損壞的文件.沒有損壞的文件。SQL>ALTER DATABASE OPEN;啟動沒有報錯,但是緩慢,之后查詢了用戶,隨機查詢了一個用戶的兩張表,數(shù)據(jù)結(jié)果集返回正常。然后連接突然中斷,重新連接,查看狀態(tài)為數(shù)
17、據(jù)庫關(guān)閉。再啟動數(shù)據(jù)庫,還是啟動不了,會強制關(guān)閉。經(jīng)過初步檢測和常規(guī)恢復(fù)庫狀態(tài),不能修復(fù)此問題。 2. 驗證 NJYY 數(shù)據(jù)庫將環(huán)境變量切換到另一個數(shù)據(jù)庫NJYY,open數(shù)據(jù)庫時報錯內(nèi)存不足錯誤,不能開啟數(shù)據(jù)庫。經(jīng)初步檢測檢測,數(shù)據(jù)文件沒有損壞。SQL>startup mount;SQL>select file#,error from v$recover_file;SQL>ALTER DATABASE OPEN;error 4030 detected in background process 5、修復(fù)Oracle數(shù)據(jù)庫1.故障修
18、復(fù)對于scope數(shù)據(jù)庫,根據(jù)上面的操作和故障現(xiàn)象,初步判斷是undo表空間或者日志方面有問題。對數(shù)據(jù)文件做完整性和一致性檢測,結(jié)果只有一個undo01.dbf文件損壞。確定是undo表空間損壞。通過命令刪除掉損壞的undo表空間,又在原來位置重建。檢測其他部分文件,沒有發(fā)現(xiàn)問題。重新啟動數(shù)據(jù)庫,正常啟動,做查詢數(shù)據(jù),正常,做了完整性檢測,正常。接著做imp數(shù)據(jù)庫全庫導(dǎo)出,經(jīng)過3個多小時正常導(dǎo)出全庫數(shù)據(jù)庫。對于 NJYY數(shù)據(jù)庫,檢測到是內(nèi)存空間設(shè)置不對,經(jīng)過命令調(diào)整,數(shù)據(jù)庫恢復(fù)正常,能正常啟動,正常使用。最后做imp數(shù)據(jù)庫全庫導(dǎo)出,經(jīng)過4個多小時正常導(dǎo)出全庫數(shù)據(jù)庫。 2. 具體驗證在完
19、成初步驗證之后,甲方要求其DBA和業(yè)務(wù)人員通過遠程做數(shù)據(jù)庫進一步具體驗證。配合做了驗證環(huán)境和各個數(shù)據(jù)庫的驗證。最終驗證數(shù)據(jù)庫為完全恢復(fù),沒有問題。在驗證數(shù)據(jù)之后,做數(shù)據(jù)遷移。考慮到數(shù)據(jù)庫的容量和恢復(fù)時間。選擇用expdp來做全庫數(shù)據(jù)的導(dǎo)出。因為expdp的效率比exp的高些。編寫好導(dǎo)出腳本,并在測試環(huán)境下測試沒有問題后,先對scope數(shù)據(jù)庫進行導(dǎo)出。導(dǎo)出開始后24分鐘時,開始報錯:ORA-39171: Job is experiencing a resumable wait.ORA-01654: unable to extend index SYSTEM.SYS_MTABLE_00003A96
20、4_IND_1 by 8 in tablespace SYSTEM經(jīng)過查找原因,得出是因為system表空間已滿造成的。用expdp導(dǎo)出時會向system表空間里的SYSTEM.SYS_MTABLE_00003A964_IND_1表里加入導(dǎo)出記錄數(shù)據(jù).當(dāng)導(dǎo)出大量數(shù)據(jù)時,此表的數(shù)據(jù)量就會增大,當(dāng)達到system表空間的總?cè)萘繒r,就會報錯。這里分析,表空間一般是會自動增加容量的,那樣就不應(yīng)該報錯。最后查詢出,system表空間是放在裸設(shè)備上的,容量為1G,且不可以增大。所以,就不能使用expdp工具做導(dǎo)出。 只能使用exp工具導(dǎo)出,雖然會慢一點,但是不會有system表空間不足的問題。最后通過exp對scope做全庫導(dǎo)出,經(jīng)過6個多小時成功備份完成。備份文件達 172G。對NJYY數(shù)據(jù)庫,做imp導(dǎo)出,經(jīng)過7個多小時正常導(dǎo)出全庫數(shù)據(jù)庫,備份文件達140G.接著對數(shù)據(jù)庫備份文件做了本地備份,作為安全冷備份。五、移交數(shù)據(jù)1、移交vmware虛擬機文件和Oracle dump文件驗證所有數(shù)據(jù)沒有問題后,將vmware虛擬機文件和Oracle dump文件拷貝至一塊2TB的希捷硬盤中。然后再將恢復(fù)出來的LUN數(shù)據(jù)拷貝至兩塊3TB的單盤中。來到甲方現(xiàn)場后先將vmware虛擬機文件和Oracle dump文件交給甲方后,甲方開始驗證du
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項目工程造價培訓(xùn)課件
- 兒童多動癥的健康教育
- 部隊反邪教課件
- 高效節(jié)能電機項目經(jīng)濟效益和社會效益分析報告(范文)
- 2025年會計、審計及稅務(wù)服務(wù)項目發(fā)展計劃
- 新解讀《建筑信息模型(BIM)應(yīng)用標(biāo)準(zhǔn) DBJ-T 36-069-2021》解讀
- 2025年壬基酚聚氧乙烯醚項目建議書
- 細(xì)胞生物學(xué)總結(jié)
- 2025年霍爾汽車點火系統(tǒng)項目合作計劃書
- 2025年花畫工藝品合作協(xié)議書
- 教師進企業(yè)實踐三方協(xié)議書
- 施工現(xiàn)場隱患圖片識別合集
- 山西省建設(shè)工程計價依據(jù)
- 煤礦在用安全設(shè)備檢測檢驗制度
- GB/T 24632.2-2009產(chǎn)品幾何技術(shù)規(guī)范(GPS)圓度第2部分:規(guī)范操作集
- GB/T 20428-2006巖石平板
- GB/T 11363-1989釬焊接頭強度試驗方法
- 內(nèi)調(diào)焦準(zhǔn)距式望遠系統(tǒng)光學(xué)設(shè)計2022年
- 核磁共振的發(fā)展史課件
- 切紙機安全操作規(guī)程標(biāo)準(zhǔn)范本
- 國家開放大學(xué)2022秋法理學(xué)形考1-4參考答案
評論
0/150
提交評論