盡管NVMe SSD硬盤是一種高度可靠的存儲(chǔ)技術(shù),但它們?nèi)匀蝗菀装l(fā)生故障。以下是使SSD硬盤保持最佳狀態(tài)的一些最佳做法。
與機(jī)械硬盤相比,SSD硬盤十分可靠。然而,沒(méi)有一種存儲(chǔ)技術(shù)是完美的。即使是最新的NVMeSSD硬盤,也可能會(huì)突然損壞或逐漸崩潰。
人們需要了解即將發(fā)生的SSD硬盤故障的跡象,以及了解如何對(duì)出現(xiàn)故障的SSD進(jìn)行故障排除,可以標(biāo)記出永久性數(shù)據(jù)丟失和無(wú)故障恢復(fù)之間的區(qū)別。像任何存儲(chǔ)設(shè)備一樣,NVMeSSD最終將失敗。唯一的變量是何時(shí)。與機(jī)械硬盤不同,固態(tài)硬盤無(wú)法發(fā)出聲音警告,以提示可能出了問(wèn)題。然而,雖然SSD硬盤可能已經(jīng)損壞,但不一定全部丟失數(shù)據(jù)。
這里介紹了SSD硬盤故障的四個(gè)主要原因,以及如何解決這些問(wèn)題。
1. 過(guò)熱
NVMeSSD硬盤雖然是新興產(chǎn)品,但困擾它們最多的問(wèn)題卻是計(jì)算技術(shù)中最古老的問(wèn)題之一:熱量。IT管理軟件和監(jiān)視工具提供商Solar Winds公司首席技術(shù)官Leon Adato表示:“NVMeSSD硬盤可能會(huì)瘋狂運(yùn)行,特別是如果正在執(zhí)行諸如高級(jí)計(jì)算之類的密集操作時(shí)。即使在常規(guī)操作下,NVMeSSD硬盤也會(huì)產(chǎn)生引起問(wèn)題的溫度。”
提供足夠的冷卻可以確保SSD硬盤不會(huì)過(guò)熱,從而防止其發(fā)生故障或節(jié)流到較低的速度。其挑戰(zhàn)在于尋找一種從驅(qū)動(dòng)器中散熱的方法。有多種解決此問(wèn)題的方法。Adato說(shuō),“您可以使用大型機(jī)箱,在其中可以確保芯片上有大量直接的外部氣流,或者可以安裝散熱器,風(fēng)扇或液體冷卻系統(tǒng)。”
將室溫降低到較低的溫度還可以顯著解決與SSD硬盤熱量相關(guān)的問(wèn)題。Adato說(shuō):“無(wú)論采用哪種方法,其想法都是要采取一些措施來(lái)增加冷卻和/或降低系統(tǒng)機(jī)箱內(nèi)部的環(huán)境溫度。”
2. 固件故障
SSD硬盤固件異常復(fù)雜,許多SSD硬盤故障往往只是一個(gè)極端情況,僅在正常運(yùn)行參數(shù)范圍之外才會(huì)出現(xiàn)此問(wèn)題。幸運(yùn)的是,當(dāng)出現(xiàn)嚴(yán)重的固件問(wèn)題時(shí),大多數(shù)SSD硬盤會(huì)自動(dòng)進(jìn)入故障保護(hù)模式。英特爾公司高級(jí)戰(zhàn)略規(guī)劃師兼產(chǎn)品經(jīng)理,負(fù)責(zé)開(kāi)發(fā)NVMe規(guī)范的財(cái)團(tuán)NVMExpress的工作組聯(lián)合主席JonmichaelHands說(shuō),“如果SSD硬盤無(wú)法保證數(shù)據(jù)的完整性,那么通常賣方會(huì)實(shí)施'斷言'或其他故障模式,使名稱空間脫機(jī)或置于只讀模式,以保護(hù)主機(jī)軟件免于讀取不良數(shù)據(jù)。”
固件問(wèn)題時(shí)有發(fā)生。例如,去年11月,惠普企業(yè)發(fā)布了客戶公告,警告其SSD硬盤固件版本HPD8需要嚴(yán)重修復(fù)。無(wú)法應(yīng)用此修復(fù)程序的組織將在32,768小時(shí)的運(yùn)行時(shí)間下看到其驅(qū)動(dòng)器發(fā)生故障。結(jié)果,恰好在3年270天零8個(gè)小時(shí)后,存儲(chǔ)在驅(qū)動(dòng)器上的所有數(shù)據(jù)都將丟失。
3. 濫用
SSD硬盤濫用最常見(jiàn)的形式是硬盤過(guò)早磨損,因?yàn)樗c數(shù)據(jù)中心的工作負(fù)載不匹配。Hands說(shuō):“例如,具有較低耐久性的[四級(jí)單元]驅(qū)動(dòng)器用于橫向擴(kuò)展存儲(chǔ)或?qū)ο蟠鎯?chǔ),而不用作具有大量隨機(jī)寫入的緩存硬盤。”
幸運(yùn)的是,可以準(zhǔn)確地預(yù)測(cè)和建模耐久性,因此很容易提前計(jì)劃以減輕SSD硬盤故障。Hands說(shuō):“知道SSD硬盤支持什么DWPD(硬盤每天寫入的數(shù)據(jù))和TBW(寫入的兆字節(jié))。對(duì)企業(yè)的工作量進(jìn)行建模,并確定哪種SSD硬盤最好。”為了預(yù)測(cè)驅(qū)動(dòng)器的失效日期,可以使用有用的工具,例如英特爾的SSD硬盤久性估算器。
4. 潛在問(wèn)題
在開(kāi)始引起重大麻煩之前,SSD硬盤問(wèn)題通常不會(huì)變得明顯。越早知道存在問(wèn)題,企業(yè)就可以更快地響應(yīng)情況并最大程度地減少影響。阿達(dá)托說(shuō):“確保使用硬件監(jiān)視軟件來(lái)跟蹤...組件的I/O速度,壞塊和其他故障模式,以便在出現(xiàn)問(wèn)題時(shí)盡快知道。”
Adato指出,創(chuàng)建一個(gè)商業(yè)環(huán)境也很重要,在該商業(yè)環(huán)境中,最終用戶可以輕松地報(bào)告運(yùn)行不佳,欠佳或異常的基于SSD硬盤系統(tǒng)。他說(shuō):“IT部門需要迅速了解故障,而解決故障遠(yuǎn)比找罪責(zé)方重要得多。”
當(dāng)涉及SSD硬盤故障時(shí),快速解決問(wèn)題是防止過(guò)多損壞的關(guān)鍵。Adato說(shuō):“企業(yè)所希望的最好的結(jié)果是失去了對(duì)該驅(qū)動(dòng)器進(jìn)行寫入的能力,但保留了對(duì)其進(jìn)行讀取的能力。因此,企業(yè)可以在將設(shè)備發(fā)送到廢料堆之前將所有數(shù)據(jù)復(fù)制到另一個(gè)SSD硬盤。”
-
存儲(chǔ)技術(shù)
+關(guān)注
關(guān)注
5文章
745瀏覽量
45846 -
固態(tài)硬盤
+關(guān)注
關(guān)注
12文章
1473瀏覽量
57486 -
SSD硬盤
+關(guān)注
關(guān)注
0文章
38瀏覽量
11820
原文標(biāo)題:SSD硬盤故障的4個(gè)原因及處理方法
文章出處:【微信號(hào):D1Net11,微信公眾號(hào):存儲(chǔ)D1net】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論