隨著互聯(lián)網(wǎng)科技的不斷進步,產(chǎn)生的數(shù)據(jù)將以成倍速度進行增長,據(jù)IDC預(yù)測,到2025年全球數(shù)據(jù)總量將會達到175ZB。如果要把175ZB用8TB的磁盤存下來的話,那就需要230億塊磁盤來存儲這些數(shù)據(jù),如果每塊磁盤的成本是1300元,那要完整存儲這些數(shù)據(jù),就需要付出30萬億的存儲硬件成本投入,相當(dāng)于國內(nèi)一年生產(chǎn)總值的三分之一。
逐步攀升的數(shù)據(jù)存儲需求和高昂存儲成本的沖突下,很多企業(yè)都將面臨著大量數(shù)據(jù)無法得到有效存儲和數(shù)據(jù)流失的問題。對此,UCloud存儲產(chǎn)品經(jīng)理周恭元在10月23日剛結(jié)束的TIC2020技術(shù)分論壇上帶來了《海量數(shù)據(jù)云歸檔存儲最佳實踐》的議題分享,圍繞企業(yè)數(shù)據(jù)歸檔面臨的存儲問題及需求,重點介紹了數(shù)據(jù)存儲的分層價值,以及UCloud新一代歸檔存儲的可靠性優(yōu)勢及三大適用場景。本文整理自演講內(nèi)容,供大家參考學(xué)習(xí)。
傳統(tǒng)歸檔存儲面臨的兩個問題
首先,周恭元分享了今年疫情特殊時期碰到的兩個公司的遭遇。
第一件事情,大約4月份的時候,某電商公司一個做DBA的朋友來咨詢我,本地硬盤已經(jīng)刪除了的文件有沒有辦法恢復(fù)?我便產(chǎn)生了一些疑問,為什么數(shù)據(jù)庫運維要管這些呢?后來詳細(xì)聊了下事情的原委,才知道他們公司由于設(shè)置了30天的數(shù)據(jù)庫日志備份策略,但是正好碰上這次疫情休假時間超過了一個月,導(dǎo)致一些年前的數(shù)據(jù)庫日志數(shù)據(jù)已經(jīng)被刪除了。究其原因,根本的問題還是由于公司為了節(jié)約成本,使本地歸檔存儲的空間有限造成的。
第二件事情,某傳統(tǒng)企業(yè)申報項目的核心數(shù)據(jù)存儲在公司內(nèi)網(wǎng)的共享文件中,而內(nèi)網(wǎng)網(wǎng)盤數(shù)據(jù)與外網(wǎng)不通,導(dǎo)致他們不得不在疫情相對嚴(yán)重的時期,還需要專門派人去公司將所需的數(shù)據(jù)拷出來,浪費了大量精力,同時也存在外出感染疫情的風(fēng)險。
從這兩件事情,不難看出傳統(tǒng)數(shù)據(jù)歸檔存儲確實存在著兩個問題:一是本地存儲空間的限制,二是數(shù)據(jù)交互的不便。而這也正是如今有越來越多的用戶開始選擇云存儲進行數(shù)據(jù)歸檔的原因。
ZB級數(shù)據(jù)需要做“冷熱”處理
隨著數(shù)據(jù)的量級從MB、GB增長到PB、EB甚至ZB級別,就會產(chǎn)生一個很實際的問題,就是企業(yè)存儲能力的提升已經(jīng)遠遠跟不上數(shù)據(jù)的增長速度。預(yù)計到2025年,全球175ZB的數(shù)據(jù)最終將會流失超過90%。而對企業(yè)來說,這流失的90%數(shù)據(jù)正是需要被長期存儲下來存在價值的數(shù)據(jù)。
一方面是大量數(shù)據(jù)無法得到有效的存儲,另一方面這些真正被存儲下來的數(shù)據(jù)又面臨什么樣的情況呢?
通過分析用戶存放在UCloud公有云對象存儲的數(shù)據(jù)訪問量可以發(fā)現(xiàn),數(shù)據(jù)在單位時間內(nèi)的請求數(shù)(我們也稱之為數(shù)據(jù)熱度),是會隨著時間的推移不斷降低的,也就是說絕大多數(shù)據(jù)在半年之后都會成為冷數(shù)據(jù)。然而實際上,大部分用戶還是將這些冷數(shù)據(jù)存放在與剛寫入這些數(shù)據(jù)時相同的存儲類型中,造成了大量不必要的成本支出。
針對這樣的問題,UCloud最早在2017年就推出了第一代歸檔存儲產(chǎn)品,2019年針對對象存儲產(chǎn)品的不同存儲類型做了統(tǒng)一,提供了三種不同的存儲類型,單價上由熱至冷,存儲成本分別為標(biāo)準(zhǔn)存儲的一半與四分之一。這樣一來,用戶就可以實現(xiàn)在同一個存儲空間里借助生命周期策略自動對數(shù)據(jù)進行降冷處理,從而優(yōu)化存儲成本。
新一代歸檔存儲,突破成本極限
在今年8月份UCloud發(fā)布了最新一代歸檔存儲產(chǎn)品,成為了國內(nèi)率先采用JBOD磁盤陣列與SMR疊瓦式磁盤介質(zhì)提供公有云歸檔存儲服務(wù)的云廠商。在具備分鐘級別取回時效、11個9以上數(shù)據(jù)可靠性的歸檔存儲產(chǎn)品中,突破了傳統(tǒng)3分錢每GB每月的定價區(qū)間,達到了0.024元每GB每月,可以進一步降低20%的成本。
大家知道存儲成本主要由硬件、運營成本構(gòu)成。UCloud新一代歸檔存儲在國內(nèi)首次采用西部數(shù)據(jù)的高密JBOD設(shè)備和SMR盤,SMR盤全名為疊瓦式磁記錄硬盤,相較于傳統(tǒng)CMR硬盤,最大區(qū)別是,磁道按Zone呈現(xiàn)的疊瓦式分布,這種分布可以以更高密度存儲數(shù)據(jù)。與36盤傳統(tǒng)機型相比,引入JBOD設(shè)備統(tǒng)一管理硬盤并采用高密度SMR盤:單位機架的存儲容量提升5.375倍,硬盤數(shù)量增加59%,單塊硬盤存儲空間提升150%。同時借助磁盤休眠的技術(shù),可以降低90%的硬盤能耗。
在降低成本的同時,新一代歸檔存儲自研的全新架構(gòu)也帶來了更高的可靠性保障,通過雙機頭的故障快速切換,能在數(shù)據(jù)取回快速的同時提供極高的可用性保障;通過采用Intel大比例糾刪碼冗余策略,歸檔存儲提供了同時4塊硬盤故障情況下的數(shù)據(jù)可靠性保障,由于歸檔存儲讀取請求較小的緣故,新一代歸檔存儲還引入了定期的一致性校驗應(yīng)對磁盤的靜默錯誤,以保障數(shù)據(jù)一致性。
歸檔存儲的三大場景
通過前面的介紹,不難看出歸檔存儲比較適用于一些寫大于讀的數(shù)據(jù)存儲場景,這類數(shù)據(jù)和以往對云存儲廣泛適用的讀大于寫的場景正好相反,因此歸檔存儲的應(yīng)用場景往往是一些已經(jīng)經(jīng)過在線處理或者應(yīng)用的在線數(shù)據(jù)的近線存儲。由于是近線存儲,數(shù)據(jù)是具備分鐘級的取回時效,這和需要數(shù)個小時甚至按天取回的離線存儲相比會有更高的實時性。
再結(jié)合客戶的實際使用,我們可以將歸檔存儲的核心場景匯總為三類,分別為多媒體數(shù)據(jù)歸檔、歷史數(shù)據(jù)合規(guī)性歸檔以及大數(shù)據(jù)、AI分析數(shù)據(jù)的歸檔。
視頻歸檔場景
由于近幾年實時音視頻場景的普及,在線教育和培訓(xùn)、遠程醫(yī)療、視頻會議、娛樂直播需求層出不窮。借助于UCloud實時音視頻服務(wù)提供的強大的覆蓋能力,可以實現(xiàn)用戶的就近接入,提供網(wǎng)絡(luò)低延遲、低丟包率的音視頻實時通信。
但也正是因為實時音視頻服務(wù)的普及,政策監(jiān)管也逐漸規(guī)范化,合規(guī)性要求成為了實時視頻業(yè)務(wù)場景中不可或缺的一個環(huán)節(jié)。目前不僅泛娛樂直播類平臺通常對直播視頻有6個月的合規(guī)性歸檔要求,在線教育、在線醫(yī)療也有了更長時間的歷史視頻歸檔的合規(guī)性要求。
通過與URTC實時音視頻業(yè)務(wù)的無縫接入,UCloud歸檔存儲在此次疫情期間幫助了多家在線教育、在線醫(yī)療用戶實現(xiàn)了實時音視頻與歷史記錄歸檔的無縫銜接,用戶僅需在每次RTC服務(wù)結(jié)束后選擇保存視頻,即可將視頻記錄進行歸檔。不僅簡潔易用,無需額外操作;更在降低存儲成本的同時易于歸檔視頻的訪問調(diào)取。
數(shù)據(jù)庫、日志備份場景
一直以來,數(shù)據(jù)庫和日志的備份問題困擾著許多電商用戶。通常情況下,中小規(guī)模的電商公司的整套服務(wù)架構(gòu)都在云上,如果給云主機綁定硬盤用來進行備份,會面臨單點故障的問題,而這些中小企業(yè)又沒有能力自己定制數(shù)據(jù)備份,將數(shù)據(jù)備份至別的存儲類型中。
對此,UCloud提供了靈活的數(shù)據(jù)庫備份組件和針對ES集群的備份接入能力,幫助用戶可以快速將MySQL數(shù)據(jù)庫直接備份至歸檔存儲中,省去了備份到本地再上傳的復(fù)雜過程。歸檔存儲同時具備ES集群的接入能力,能夠幫助用戶將歷史日志定時進行云歸檔,為用戶保留更長時間的日志記錄。
UCloud通過幫助客戶進行歸檔方式改造,降低了數(shù)家電商公司的數(shù)據(jù)備份成本,延長備份周期,簡化操作流程,大大降低了用戶數(shù)據(jù)丟失恢復(fù)及歷史日志追溯的難度。
大數(shù)據(jù)歸檔場景
針對大數(shù)據(jù)分析場景,UCloud對象存儲服務(wù)提供了Hadoop集群的接入工具,甚至在存儲性能上媲美HDFS。過去用戶往往受制于本地HDFS集群的存儲空間,所以將分析后的原始數(shù)據(jù)丟棄,損失了大量數(shù)據(jù)價值。通過云歸檔的方式將大數(shù)據(jù)分析后留下的大量數(shù)據(jù)樣本和分析結(jié)果進行長期存儲,再通過提供的Hadoop集群的接入工具,就能實現(xiàn)將歷史數(shù)據(jù)激活后,直接在云端進行大數(shù)據(jù)分析,不用擔(dān)心數(shù)據(jù)二次取回的本地存儲空間壓力。
企業(yè)也可以更靈活、彈性地應(yīng)對數(shù)據(jù)爆炸帶來的存儲空間壓力,按3年期投入計算,更是比本地搭建相同規(guī)模的HDFS集群降低80%以上的成本投入。
寫在最后
英國數(shù)學(xué)家Clive Humby曾說過,數(shù)據(jù)是數(shù)字時代的新石油,盡管數(shù)據(jù)本身很有價值,但數(shù)據(jù)需要處理,就像石油需要在其真正價值被解鎖之前需要精煉一樣。石油是一種有限的資源,而數(shù)據(jù)卻是可重復(fù)使用的。對于企業(yè)而言,積累數(shù)據(jù)就是積累原始財富,在有分析能力的情況下可以進一步提煉數(shù)據(jù)背后的商業(yè)價值,UCloud新一代歸檔存儲正是為這些海量數(shù)據(jù)歸檔存儲提供高可靠、低成本解決方案的重要基石。
原文標(biāo)題:海量數(shù)據(jù)何去何從?新一代歸檔存儲給你想要的答案
文章出處:【微信公眾號:高端存儲知識】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
存儲器
+關(guān)注
關(guān)注
38文章
7525瀏覽量
164160 -
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7128瀏覽量
89365
原文標(biāo)題:海量數(shù)據(jù)何去何從?新一代歸檔存儲給你想要的答案
文章出處:【微信號:High-end_Storage,微信公眾號:高端存儲知識】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論