1990年,存儲1G的數據大約需要花費9000美元(約合人民幣61568元);現在,只需花費不到3分錢(約合兩元人民幣)。過去的十年中,存儲成本幾乎可以忽略不計。雖然存儲對于用戶來說幾近免費,但是數據中心運營商每年仍需花費數十億美元——而且成本呈上升趨勢。這不僅僅是因為每年創建的數據總量在激增,而且還有越來越多的關于耐用性和可使用性的嚴格要求。
思科全球云指數顯示,到2021年,全球數據中心存儲容量將從2016年的6630億字節(EB)增長到2021年的2.6澤字節(ZB),增長率將近400%。據互聯網數據中心(IDC)全球數據領域報告,超過半數的存儲空間將會用于機械硬盤,還有約四分之一的存儲空間用于固態硬盤(SSD)。
事實上,“幾乎免費”的存儲空間在數據中心預算中卻是一筆昂貴的支出。
數據的本質正在改變
過去一段時間,存儲空間充斥著數據中心,支持在服務器上運行的應用程序。數據寫入磁盤后通常很少被訪問。
但是,有了現代應用程序,世界便變得不一樣:
?以橫向擴展方式部署的微服務正在取代單片應用程序。
?數據量巨大,節點之間的數據移動量正在增加。
?服務需要大規模的高吞吐量和低延遲的存儲。
?總體數據溫度在上升——即實時熱數據量正在增加。
迫于壓力,各公司正在應對這些需求,同時也求能降低成本。
減少數據:壓縮算法的創新
這就是為什么我們目睹了下一代壓縮解決方案的原因。對于文本或二進制數據,壓縮算法,諸如Facebook的Zstandard (zstd)快速無損壓縮算法,谷歌公司的Brotli無損壓縮算法以及微軟項目管理軟件程序(Microsoft Project)中的Zipline等,均能提供標準的基于壓縮算法的更高壓縮率。其次,有超過半數儲存到云端存儲空間的數據由圖片和視頻組成。這些壓縮算法完全不能壓縮JPEG和MPEG文件。云端銷售公司采取的一種方法,就是引進一種針對圖像,有損耗的壓縮算法,能節省20%-30%的存儲空間,谷歌公司旗下的Guetzli便是采用這種方法。多寶箱(Dropbox)則采取了另一種方法,即部署Lepton,這是一種針對JPEG的無損耗壓縮算法,能節省22%的存儲空間,但只能擁有處理40Mbps的壓縮能力。
甚至在壓縮率上的一點小進步也能節約巨大的存儲空間和網絡寬帶成本。節約下來的成本很輕易地就能被運行壓縮算法所需的CPU周期和和功耗/散熱造成的額外成本抵消掉。不幸的是,這些方案中的每一個都要在性能上進行權衡:壓縮量越大,吞吐速度越慢。
由于吞吐量的限制,這些算法通常應用于靜止數據而非動態數據。為了能同樣通過壓縮動態數據來最大程度上降低成本,我們必須能以線速來維持吞吐量。
數據耐用性和可用性:復制VS.擦除碼
當今數據中心要求九倍的數據存儲耐用性和可用性。數據鏡像是獲得耐用和可用存儲最基本的方式之一。此方案產生相同的數據副本并存儲到不同的故障域中。復制數據的計算要求相對較小,同時這種方案也可提供最快的恢復時間。但是,由于需要復制數據兩次及以上的情況并不罕見,于是復制就意味著要付出更高的存儲成本。
另一種常用的方案是奇偶校驗編碼,它能以更低的存儲成本提供持久和可用的存儲。奇偶校驗編碼方案中提出了擦除編碼這個例子,其中多個數據和奇偶校驗片段分布在不同的故障域中。奇偶校驗碎片的數量是決定耐用性的因素。擦除編碼方案所需的存儲容量成本較低,但對于計算和聯網有較高的要求,尤其是在無法使用存儲,必須從不同位置重建數據的情況下。因此,計算處理吞吐量和低網絡延遲是成功實現擦除編碼的關鍵。
大規模的資源存儲
降低存儲成本的另一種方法是提高容量利用率。要實現這一點,可以將存儲資源集中到動態分配的虛擬池中,同時許多客戶機可以訪問這些虛擬池。彼得·J·丹寧(Peter J. Denning)在他的博士論文中提到,將N個單元的資源池集中到一個單獨的資源池中,這樣做能提供1個而不是N個單元,具有相同的服務水平的資源池。換句話說,共享池越大,節省的存儲空間就越大。
如今,盡管在超融合基礎架構(HCI)中可以完成資源池化,但是CPU瓶頸仍然限制了對直接連接存儲SSD的訪問。CPU的延遲高,而且不可預測,形成了復雜的軟件,最終限制了性能和規模。在一個分類基礎架構中,將計算和存儲裝置放置在不同服務器里,可以更好地構建資源池。將存儲與計算脫鉤,可減少CPU瓶頸,縮短延遲時間,從而簡化對數據放置的思考。
在Fungible公司里,我們認為,分解存儲體系結構很自然地可以實現奇偶校驗方案,例如擦除編碼,使數據和奇偶校驗代碼分布在不同的故障域中,以及大規模共享存儲池。
但是,到目前為止,由于CPU效率底下,性能結構,舊版軟件限制等原因,分類存儲尚未充分發揮其潛力。
Fungible公司的數據處理器
為了擺脫這些限制,Fungible公司開發設計了一種新型的可編程微處理器,即數據處理器。從頭開始專門構建數據處理器,不僅可以控制存儲成本,還可以提供當今計算中心架構所缺少的性能和可伸縮性。
數據處理器的設計遵循以下原則:
1. 不必折衷考慮壓縮比和吞吐量。對于文本/二進制以及圖像來說,壓縮算法必須是無損的。
2. 在讀寫語境中,通過使用擦除代碼方案得到的數據持久性,必須得到現在應用程序所需的吞吐量和延遲的支持。
3. 資源池必須靠現代應用程序所需的吞吐量和延遲的支持,并且必須可以在網絡中大規模運用。
存儲可能永遠不會免費,但是使用Fungible公司的數據處理器(DPU)可以便宜很多。
責任編輯人:CC
-
存儲
+關注
關注
13文章
4353瀏覽量
86070
原文標題:存儲能不能實現免費?
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論