【故障描述】
某公司的一臺服務(wù)器組了一個raid5磁盤陣列有兩塊磁盤先后掉線,服務(wù)器崩潰。故障服務(wù)器的操作系統(tǒng)為linux redhat 5.3,應(yīng)用系統(tǒng)為構(gòu)架于oracle的一個oa,數(shù)據(jù)重要,時間很急。因oracle已經(jīng)不再對本oa系統(tǒng)提供后續(xù)支持,用戶要求盡可能數(shù)據(jù)恢復(fù)+操作系統(tǒng)復(fù)原。
【初檢結(jié)論】
熱備盤完全無啟用,硬盤無明顯物理故障,無明顯同步表現(xiàn)。數(shù)據(jù)通??苫謴?fù)
【恢復(fù)方案】
1、保護原環(huán)境,關(guān)閉服務(wù)器,確保在恢復(fù)過程中不再開啟服務(wù)器。
2、將故障硬盤標(biāo)好序號,確保在拿出槽位后可以完全復(fù)原。
3、將故障硬盤掛載至只讀環(huán)境,對所有故障硬盤做完全鏡像(參考<如何對磁盤做完整的全盤鏡像備份>)。備份完成后交回原故障盤,之后的恢復(fù)操作直到數(shù)據(jù)確認(rèn)無誤前不再涉及原故障盤。
4、對備份盤進行RAID結(jié)構(gòu)分析,得到其原來的RAID級別,條帶規(guī)則,條帶大小,校驗方向,META區(qū)域等。
5、根據(jù)得到的RAID信息搭建一組虛擬的RAID5環(huán)境。
6、進行虛擬磁盤及文件系統(tǒng)解釋。
7、檢測虛擬結(jié)構(gòu)是否正確,如不正確,重復(fù)4-7過程。
8、確定數(shù)據(jù)無誤后,按用戶要求回遷數(shù)據(jù)。如果仍然使用原盤,需確定已經(jīng)完全對原盤做過備份后,重建RAID,再做回遷。回遷操作系統(tǒng)時,可以使用linux livecd或win pe(通常不支持)等進行,也可以在故障服務(wù)器上用另外硬盤安裝一個回遷用的操作系統(tǒng),再進行扇區(qū)級別的回遷。
9、數(shù)據(jù)移交后,由北亞數(shù)據(jù)恢復(fù)中心延長保管數(shù)據(jù)3天,以避免可能忽略的紕漏。
【恢復(fù)周期】
備份時間,約2小時。解釋及導(dǎo)出數(shù)據(jù)時間,約4小時?;剡w操作系統(tǒng),約4小時。
1、對原硬盤進行完整鏡像,鏡像后發(fā)現(xiàn)2號盤有10-20個壞扇區(qū),其余磁盤,均無壞道。
2、分析結(jié)構(gòu):得到的最佳結(jié)構(gòu)為0,1,2,3盤序,缺3號盤,塊大小512扇區(qū),backward parity(Adaptec),結(jié)構(gòu)如下圖:
3、組好后數(shù)據(jù)驗證,200M以上的最新壓縮包解壓無報錯,確定結(jié)構(gòu)正確。
4、直接按此結(jié)構(gòu)生成虛擬RAID到一塊單硬盤上,打開文件系統(tǒng)無明顯報錯。
5、確定備份包安全的情況下,經(jīng)客戶同意后,對原盤重建RAID,重建時已經(jīng)用全新硬盤更換損壞的2號盤。將恢復(fù)好的單盤用USB方式接入故障服務(wù)器,再用linux SystemRescueCd啟動故障服務(wù)器,之后通過dd命令進行全盤回寫。
6、回寫后,啟動操作系統(tǒng)。正常情況下,這時候所有工作應(yīng)該完成了。不巧的是,因幫頗費周折才解決,特意另起一段敘述。
dd所有數(shù)據(jù)后,啟動操作系統(tǒng),無法進入,報錯信息為:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied
懷疑此文件權(quán)限有問題,用SystemRescueCd重啟后檢查,此文件時間,權(quán)限,大小均有明顯錯誤,顯然節(jié)點損壞。
重新分析重組數(shù)據(jù)中的根分區(qū),定位出錯的/sbin/pidof,發(fā)現(xiàn)問題因2號盤壞道引起。
使用0,1,3這3塊盤,針對2號盤的損壞區(qū)域進行xor補齊。補齊后重新校驗文件系統(tǒng),依然有錯誤,再次檢查inode表,發(fā)現(xiàn)2號盤損壞區(qū)域有部分節(jié)點表現(xiàn)為(圖中的55 55 55部分):
很明顯,雖然節(jié)點中描述的uid還正常存在,但屬性,大小,以最初的分配塊全部是錯誤的。按照所有可能進行分析,確定無任何辦法找回此損壞節(jié)點。只能希望修復(fù)此節(jié)點,或復(fù)制一個相同的文件過來。
對所有可能有錯的文件,均通過日志確定原節(jié)點塊的節(jié)點信息,再做修正。
修正后重新dd根分區(qū),執(zhí)行fsck -fn /dev/sda5,進行檢測,依然有報錯,如下圖:
根據(jù)提示,在系統(tǒng)中發(fā)現(xiàn)有多個節(jié)點共用同樣的數(shù)據(jù)塊。按此提示進行底層分析,發(fā)現(xiàn),因3號盤早掉線,幫存在節(jié)點信息的新舊交集。
按節(jié)點所屬的文件進行區(qū)別,清除錯誤節(jié)點后,再次執(zhí)行fsck -fn /dev/sda5,依然有報錯信息,但已經(jīng)很少。根據(jù)提示,發(fā)現(xiàn)這些節(jié)點多位于doc目錄下,不影響系統(tǒng)啟動,于是直接fsck -fy /dev/sda5強行修復(fù)。
修復(fù)后,重啟系統(tǒng),成功進入桌面。
啟動數(shù)據(jù)庫服務(wù),啟動應(yīng)用軟件,一切正常,無報錯。
到此,數(shù)據(jù)恢復(fù)及系統(tǒng)回遷工作完成。
本文名稱:服務(wù)器raid5先后兩塊盤掉線的恢復(fù)過程-創(chuàng)新互聯(lián)
URL標(biāo)題:http://aaarwkj.com/article42/dedchc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站內(nèi)鏈、App設(shè)計、品牌網(wǎng)站制作、網(wǎng)站排名、域名注冊、App開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容