HP存儲(chǔ)raid5兩塊硬盤(pán)離線lvm下vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方案

故障描述

創(chuàng)新互聯(lián)2013年至今，是專(zhuān)業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司，擁有項(xiàng)目成都做網(wǎng)站、成都網(wǎng)站建設(shè)網(wǎng)站策劃，項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命，1280元城廂做網(wǎng)站,已為上家服務(wù),為城廂各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:028-86922220

HP FC MSA2000存儲(chǔ)，由于RAID5陣列中出現(xiàn)2塊硬盤(pán)損壞并離線，而此時(shí)只有一塊熱備盤(pán)成功激活，因此導(dǎo)致RAID5陣列癱瘓，上層LUN無(wú)法正常使用，用戶聯(lián)系聯(lián)系北亞數(shù)據(jù)，整個(gè)存儲(chǔ)空間由8塊450GB SAS的硬盤(pán)組成，其中7塊硬盤(pán)組成一個(gè)RAID5的陣列，剩余1塊做成熱備盤(pán)使用。

由于存儲(chǔ)是因?yàn)镽AID陣列中某些磁盤(pán)掉線，從而導(dǎo)致整個(gè)存儲(chǔ)不可用。因此接收到磁盤(pán)以后先對(duì)所有磁盤(pán)做物理檢測(cè)，檢測(cè)完后發(fā)現(xiàn)沒(méi)有物理故障。接著使用壞道檢測(cè)工具檢測(cè)磁盤(pán)壞道，發(fā)現(xiàn)也沒(méi)有壞道。

解決方法：

1、備份數(shù)據(jù)

考慮到數(shù)據(jù)的安全性以及可還原性，在做數(shù)據(jù)恢復(fù)之前需要對(duì)所有源數(shù)據(jù)做備份，以防萬(wàn)一其他原因?qū)е聰?shù)據(jù)無(wú)法再次恢復(fù)。使用dd命令或winhex工具將所有磁盤(pán)都鏡像成文件。備份完部分?jǐn)?shù)據(jù)如下圖： HP存儲(chǔ)raid5兩塊硬盤(pán)離線lvm下vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方案

2、分析故障原因

由于前兩個(gè)步驟并沒(méi)有檢測(cè)到磁盤(pán)有物理故障或者是壞道，由此推斷可能是由于某些磁盤(pán)讀寫(xiě)不穩(wěn)定導(dǎo)致故障發(fā)生。因?yàn)镠P MSA2000控制器檢查磁盤(pán)的策略很?chē)?yán)格，一旦某些磁盤(pán)性能不穩(wěn)定，HP MSA2000控制器就認(rèn)為是壞盤(pán)，就將認(rèn)為是壞盤(pán)的磁盤(pán)踢出RAID組。而一旦RAID組中掉線的盤(pán)到達(dá)到RAID級(jí)別允許掉盤(pán)的極限，那么這個(gè)RAID組將變的不可用，上層基于RAID組的LUN也將變的不可用。目前初步了解的情況為基于RAID組的LUN有6個(gè)，均分配給HP-Unix小機(jī)使用，上層做的LVM邏輯卷，重要數(shù)據(jù)為Oracle數(shù)據(jù)庫(kù)及OA服務(wù)端。

3、分析RAID組結(jié)構(gòu)

HP MSA2000存儲(chǔ)的LUN都是基于RAID組的，因此需要先分析底層RAID組的信息，然后根據(jù)分析的信息重構(gòu)原始的RAID組。分析每一塊數(shù)據(jù)盤(pán)，發(fā)現(xiàn)4號(hào)盤(pán)的數(shù)據(jù)同其它數(shù)據(jù)盤(pán)不太一樣，初步認(rèn)為可能是hot Spare盤(pán)。接著分析其他數(shù)據(jù)盤(pán)，分析Oracle數(shù)據(jù)庫(kù)頁(yè)在每個(gè)磁盤(pán)中分布的情況，并根據(jù)數(shù)據(jù)分布的情況得出RAID組的條帶大小，磁盤(pán)順序及數(shù)據(jù)走向等RAID組的重要信息。

4、分析RAID組掉線盤(pán)

根據(jù)上述分析的RAID信息，嘗試通過(guò)北亞自主開(kāi)發(fā)的RAID虛擬程序?qū)⒃嫉腞AID組虛擬出來(lái)。但由于整個(gè)RAID組中一共掉線兩塊盤(pán)，因此需要分析這兩塊硬盤(pán)掉線的順序。仔細(xì)分析每一塊硬盤(pán)中的數(shù)據(jù)，發(fā)現(xiàn)有一塊硬盤(pán)在同一個(gè)條帶上的數(shù)據(jù)和其他硬盤(pán)明顯不一樣，因此初步判斷此硬盤(pán)可能是最先掉線的，通過(guò)北亞自主開(kāi)發(fā)的RAID校驗(yàn)程序?qū)@個(gè)條帶做校驗(yàn)，發(fā)現(xiàn)除掉剛才分析的那塊硬盤(pán)得出的數(shù)據(jù)是最好的，因此可以明確最先掉線的硬盤(pán)了。

5、分析RAID組中的LUN信息

由于LUN是基于RAID組的，因此需要根據(jù)上述分析的信息將RAID組最新的狀態(tài)虛擬出來(lái)。然后分析LUN在RAID組中的分配情況，以及LUN分配的數(shù)據(jù)塊MAP。由于底層有6個(gè)LUN，因此只需要將每一個(gè)LUN的數(shù)據(jù)塊分布MAP提取出來(lái)。然后針對(duì)這些信息編寫(xiě)相應(yīng)的程序，對(duì)所有LUN的數(shù)據(jù)MAP做解析，然后根據(jù)數(shù)據(jù)MAP并導(dǎo)出所有LUN的數(shù)據(jù)。

HP存儲(chǔ)raid5兩塊硬盤(pán)離線lvm下vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方案

6、解析LVM邏輯卷

分析生成出來(lái)的所有LUN，發(fā)現(xiàn)所有LUN中均包含HP-Unix的LVM邏輯卷信息。嘗試解析每個(gè)LUN中的LVM信息，發(fā)現(xiàn)其中一共有三套LVM，其中45G的LVM中劃分了一個(gè)LV，里面存放OA服務(wù)器端的數(shù)據(jù)，190G的LVM中劃分了一個(gè)LV，里面存放臨時(shí)備份數(shù)據(jù)。剩余4個(gè)LUN組成一個(gè)2.1T左右的LVM，也只劃分了一個(gè)LV，里面存放Oracle數(shù)據(jù)庫(kù)文件。編寫(xiě)解釋LVM的程序，嘗試將每套LVM中的LV卷都解釋出來(lái)，但發(fā)現(xiàn)解釋程序出錯(cuò)。

7、修復(fù)LVM邏輯卷

仔細(xì)分析程序報(bào)錯(cuò)的原因，安排開(kāi)發(fā)工程師debug程序出錯(cuò)的位置，并同時(shí)安排高級(jí)文件系統(tǒng)工程師對(duì)恢復(fù)的LUN做檢測(cè)，檢測(cè)LVM信息是否會(huì)因存儲(chǔ)癱瘓導(dǎo)致LMV邏輯卷的信息損壞。經(jīng)過(guò)仔細(xì)檢測(cè)，發(fā)現(xiàn)確實(shí)因?yàn)榇鎯?chǔ)癱瘓導(dǎo)致LVM信息損壞。嘗試人工對(duì)損壞的區(qū)域進(jìn)行修復(fù)，并同步修改程序，重新解析LVM邏輯卷。

8、解析VXFS文件系統(tǒng)

搭建HP-Unix環(huán)境，將解釋出來(lái)的LV卷映射到HP-Unix，并嘗試Mount文件系統(tǒng)。結(jié)果Mount文件系統(tǒng)出錯(cuò)，嘗試使用“fsck –F vxfs” 命令修復(fù)vxfs文件系統(tǒng)，但修復(fù)結(jié)果還是不能掛載，懷疑底層vxfs文件系統(tǒng)的部分元數(shù)據(jù)可能破壞，需要進(jìn)行手工修復(fù)。

9、修復(fù)VXFS文件系統(tǒng)

仔細(xì)分析解析出來(lái)的LV，并根據(jù)VXFS文件系統(tǒng)的底層結(jié)構(gòu)校驗(yàn)此文件系統(tǒng)是否完整。分析發(fā)現(xiàn)底層VXFS文件系統(tǒng)果然有問(wèn)題，原來(lái)當(dāng)時(shí)存儲(chǔ)癱瘓的同時(shí)此文件在系統(tǒng)正在執(zhí)行IO操作，因此導(dǎo)致部分文件系統(tǒng)元文件沒(méi)有更新以及損壞。人工對(duì)這些損壞的元文件進(jìn)行手工修復(fù)，保證VXFS文件系統(tǒng)能夠正常解析。再次將修復(fù)好的LV卷掛載到HP-Unix小機(jī)上，嘗試Mount文件系統(tǒng)，文件系統(tǒng)沒(méi)有報(bào)錯(cuò)，成功掛載。

10、恢復(fù)所有用戶文件

在HP-Unix機(jī)器上mount文件系統(tǒng)后，將所有用戶數(shù)據(jù)均備份至指定磁盤(pán)空間。所有用戶數(shù)據(jù)大小在1.2TB左右。部分文件目錄截圖如下：

HP存儲(chǔ)raid5兩塊硬盤(pán)離線lvm下vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方案

11、檢測(cè)數(shù)據(jù)庫(kù)文件是否完整

使用Oracle數(shù)據(jù)庫(kù)文件檢測(cè)工具“dbv”檢測(cè)每個(gè)數(shù)據(jù)庫(kù)文件是否完整，發(fā)現(xiàn)并沒(méi)有錯(cuò)誤。再使用北亞自主研發(fā)的Oracle數(shù)據(jù)庫(kù)檢測(cè)工具（檢驗(yàn)更嚴(yán)格），發(fā)現(xiàn)有部分?jǐn)?shù)據(jù)庫(kù)文件和日志文件校驗(yàn)不一致，安排高級(jí)數(shù)據(jù)庫(kù)工程師對(duì)此類(lèi)文件進(jìn)行修復(fù)，并在次校驗(yàn)，直到所有文件校驗(yàn)均完全通過(guò)。

12、啟動(dòng)Oracle數(shù)據(jù)庫(kù)

由于我們提供的HP-Unix環(huán)境沒(méi)有此版本的Oracle數(shù)據(jù)，因此和用戶協(xié)調(diào)將原始生成環(huán)境帶至北亞數(shù)據(jù)恢復(fù)中心，然后將恢復(fù)的Oracle數(shù)據(jù)庫(kù)附加到原始生產(chǎn)環(huán)境的HP-Unix服務(wù)器中，嘗試啟動(dòng)Oracle數(shù)據(jù)庫(kù)，Oracle數(shù)據(jù)庫(kù)啟動(dòng)成功。部分截圖如下：

HP存儲(chǔ)raid5兩塊硬盤(pán)離線lvm下vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方案

13、數(shù)據(jù)驗(yàn)證

由用戶方配合，啟動(dòng)Oracle數(shù)據(jù)庫(kù)，啟動(dòng)OA服務(wù)端，在本地筆記本安裝OA客戶端。通過(guò)OA客戶端對(duì)最新的數(shù)據(jù)記錄以及歷史數(shù)據(jù)記錄進(jìn)行驗(yàn)證，并且有用戶安排遠(yuǎn)程不同部門(mén)人員進(jìn)行遠(yuǎn)程驗(yàn)證。最終數(shù)據(jù)驗(yàn)證無(wú)誤，數(shù)據(jù)完整，數(shù)據(jù)恢復(fù)成功。

由于故障發(fā)生后保存現(xiàn)場(chǎng)環(huán)境良好，沒(méi)用做相關(guān)危險(xiǎn)的操作，對(duì)后期的數(shù)據(jù)恢復(fù)有很大的幫助。整個(gè)數(shù)據(jù)恢復(fù)過(guò)程中雖然遇到好多技術(shù)瓶頸，但也都一一解決。最終在預(yù)期的時(shí)間內(nèi)完成整個(gè)數(shù)據(jù)恢復(fù)，恢復(fù)的數(shù)據(jù)用戶方也相當(dāng)滿意，Oracle數(shù)據(jù)庫(kù)服務(wù)，OA服務(wù)端等所有服務(wù)能夠正常啟動(dòng)。

網(wǎng)站名稱(chēng)：HP存儲(chǔ)raid5兩塊硬盤(pán)離線lvm下vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方案
鏈接URL：http://aaarwkj.com/article12/igcjgc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站內(nèi)鏈、標(biāo)簽優(yōu)化、企業(yè)建站、移動(dòng)網(wǎng)站建設(shè)、商城網(wǎng)站、網(wǎng)站設(shè)計(jì)公司

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

HP存儲(chǔ)raid5兩塊硬盤(pán)離線lvm下vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方案