基于Hadoop平臺(tái)的分布式重復(fù)數(shù)據(jù)刪除解決方案
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
針對(duì)數(shù)據(jù)中心存在大量數(shù)據(jù)冗余的問題,特別是備份數(shù)據(jù)造成的存儲(chǔ)容量浪費(fèi),提出一種基于Hadoop平臺(tái)的分布式重復(fù)數(shù)據(jù)刪除解決方案。該方案通過檢測(cè)并消除特定數(shù)據(jù)集內(nèi)的冗余數(shù)據(jù),來顯著降低數(shù)據(jù)存儲(chǔ)容量,優(yōu)化存儲(chǔ)空間利用率。利用Hadoop大數(shù)據(jù)處理平臺(tái)下的分布式文件系統(tǒng)(HDFS)和非關(guān)系型數(shù)據(jù)庫HBase兩種數(shù)據(jù)管理模式,設(shè)計(jì)并實(shí)現(xiàn)一種可擴(kuò)展分布式重刪存儲(chǔ)系統(tǒng)。其中,MapReduce并行編程框架實(shí)現(xiàn)分布式并行重刪處理,HDFS負(fù)責(zé)重刪后的數(shù)據(jù)存儲(chǔ),在HBase數(shù)據(jù)庫中構(gòu)建索引表,實(shí)現(xiàn)高效數(shù)據(jù)塊索引查詢。最后,利用虛擬機(jī)鏡像文件數(shù)據(jù)集對(duì)系統(tǒng)進(jìn)行了測(cè)試,基于Hadoop平臺(tái)的分布式重刪系統(tǒng)能在保證高重刪率的同時(shí),具有高吞吐率和良好的可擴(kuò)展性。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
基于Hadoop平臺(tái)的分布式重復(fù)數(shù)據(jù)刪除解決方案下載
相關(guān)電子資料下載
- 隆基全球分布式研發(fā)中心揭牌 265
- 故障排查小能手:輸電線路分布式故障定位裝置大解析 63
- 浪潮信息推出基于新一代分布式存儲(chǔ)平臺(tái)AS13000G7的AIGC存儲(chǔ)解決方案 816
- 黑龍江電力高性能WDS分布式存儲(chǔ)系統(tǒng)解決方案 62
- 雷拓科技云廣播助力江西省蘆溪縣新圖書館打造沉浸式觀展體驗(yàn)! 97
- 分布式光纖測(cè)溫系統(tǒng)DTS 143
- 天合光能致力于加強(qiáng)全球綠色轉(zhuǎn)型協(xié)作 239
- 安科瑞防孤島保護(hù)裝置AM5SE-IS 在布式光伏監(jiān)控系統(tǒng)中的應(yīng)用 93
- 得瑞領(lǐng)新參編《高性能計(jì)算助推分布式存儲(chǔ)發(fā)展白皮書》正式發(fā)布,助力推動(dòng)產(chǎn) 112
- 基于智慧醫(yī)療系統(tǒng)的存儲(chǔ)解決方案,助力高性能存儲(chǔ)需求 143