服務器存儲數據恢復環境:
某品牌服務器存儲中有一組由6塊SAS硬盤組建的RAID5陣列,其中有1塊硬盤作為熱備盤使用。上層劃分若干lun,存放Oracle數據庫數據。
服務器存儲故障&分析:
該RAID5陣列中一塊硬盤出現故障離線,熱備盤自動激活替換故障硬盤,熱備盤同步數據的過程中該raid5陣列中又有一塊硬盤出現故障,RAID5陣列癱瘓,上層LUN無法正常訪問。
因為本案例中存儲控制器的磁盤檢查策略嚴格,一旦某些磁盤性能不穩定,該型號存儲控制器就將該塊磁盤識別為壞盤,并將該塊磁盤踢出RAID。一旦RAID中掉線的盤數到超過RAID級別允許掉盤的最大數量,該RAID將不可用,上層基于RAID的LUN也無法訪問,從而導致重要數據丟失。
服務器數據恢復過程:
1、將故障服務器存儲中所有磁盤編號后取出,由硬件工程師對所有磁盤做物理故障檢測,經過檢測發現有一塊硬盤存在物理故障,其他硬盤沒有發現明顯物理故障。將所有完好磁盤以只讀方式進行扇區級全盤鏡像。針對那塊故障磁盤,由專業工具處理后做鏡像。鏡像完成所有磁盤后,按照編號將所有磁盤還原到原服務器中,后續的數據分析和數據恢復操作都基于鏡像文件進行,避免對原始磁盤數據造成二次破壞。
2、分析RAID組結構
該品牌服務器存儲的LUN是基于RAID的。北亞企安數據恢復工程師基于鏡像文件分析底層RAID的信息,通過分析找到了熱備盤。繼續分析其他硬盤的底層數據,分析Oracle數據庫頁在每個磁盤中分布的情況,并根據數據分布的情況得出RAID組的條帶大小,磁盤順序及數據走向等RAID的重要信息,然后根據分析獲取到的信息虛擬重構原RAID。
3、完成重組raid后,分析LUN在RAID中的分配情況,以及LUN分配的數據塊MAP。只需要將LUN的數據塊分布MAP提取出來,然后針對這些信息編寫相應的程序,解析LUN的數據MAP,然后根據數據MAP導出LUN的數據。
4、服務器存儲數據恢復方案:
a、數據恢復實施方案一
將Oracle數據庫數據所在的LUN進行JFS2文件系統解析,人工修復文件系統不完整的地方。利用北亞企安自主開發的JFS2文件系統解析工具解析恢復的LUN,恢復文件系統中所有的Oracle數據庫文件,并檢測Oracle數據庫文件的完整性。
針對檢測出有壞塊的數據庫文件,掃描所有磁盤中的Oracle數據頁碎片,組合掃描出來的數據頁,通過人工將有壞塊的數據庫文件填補修復完整。
在恢復完所有Oracle數據庫之后,發現其上層應用SAP還是無法使用。SAP應用的一些重要數據存放在損壞的存儲中,如果缺失這些數據,SAP即使在數據庫完整的情況下也無法正常使用,因此還需通過方案二來恢復所有SAP的重要數據。
b、數據恢復實施方案二
對恢復的所有LUN都進行文件系統解析,并將存放SAP的數據LUN做文件系統一致性檢測。對文件系統不完整的部分通過人工進行修復,恢復所有SAP及SAP Test的數據。
檢測SAP數據,并修復損壞的SAP數據,確?;謴统鰜淼乃蠸AP數據均完整,這樣才能保證SAP應用啟動。
結合恢復出來的SAP數據和數據庫,啟動SAP及所有應用即可。
5、啟動并修復Oracle數據及SAP應用
a、啟動數據庫并修復
將恢復出來的數據庫文件還原到搭建好的環境中,嘗試啟動數據庫。由于數據庫的一些臨時文件校驗不一致導致數據庫啟動失敗。Oracle數據庫工程師對數據庫進行修復后,數據庫啟動沒有問題,數據庫中的所有用戶及所有表均完整,嘗試啟動SAP。
b、啟動SAP并修復
將恢復出來的SAP文件還原到已搭建好的環境中,并按照之前的啟動腳本啟動SAP,SAP啟動正常,但SAP中用戶權限及使用不正常,SAP表現為沒有序列號。數據恢復工程師懷疑SAP的注冊文件沒有恢復出來。重新檢測恢復過程,排查可能疏忽的步驟,最后查明文件系統的損壞導致某些文件沒有恢復。重新修復文件系統&恢復這些數據。啟動SAP正常,SAP使用正常。
6、由用戶方配合,啟動Oracle數據庫,啟動SAP,并通過SAP客戶端驗證SAP中所有的數據的完整性,經過驗證,用戶方確認數據完整有效,SAP正常使用。本次數據恢復工作完成。
審核編輯 黃宇
-
硬盤
+關注
關注
3文章
1317瀏覽量
57426 -
服務器
+關注
關注
12文章
9295瀏覽量
85871 -
數據恢復
+關注
關注
10文章
585瀏覽量
17583 -
RAID5
+關注
關注
0文章
122瀏覽量
12751 -
Oracle
+關注
關注
2文章
296瀏覽量
35179
發布評論請先 登錄
相關推薦
評論