用于數據分析的開源Hadoop架構的巨大增長是由其結構化和非結構化數據量的增長所驅動的,并且很多權威組織也預測,未來Hadoop架構還將繼續增長,并需要復雜的可訪問工具來從數據中提取業務和市場信息。
對于Hadoop來說,前景很樂觀——開源框架旨在促進巨大數據集的分布式處理。Hadoop對企業越來越具有吸引力,因為它既可以獲取大數據的好處,同時又避免了基礎架構費用。
聯合市場研究部門最近的一份報告表明,Hadoop市場將實現從2013年到2020年的復合年增長率為58.2%,到2020年整個市場將達到502億美元,而2012年為15億美元。
大數據到底有多“大”?根據IBM的說法,每天都會產生2.5萬億字節的數據,世界上所有數據的90%都是在過去兩年中創建的。意識到這個巨大的信息商店的價值就需要數據分析工具,這些數據分析工具足夠復雜,價格便宜,而且對于各種規模的公司來說都很容易使用。
許多企業認為其專有數據太重要,無法在其他場合存儲和處理。然而,云服務現在提供與內部系統相同的安全性和可用性。通過訪問云中的數據庫,企業也意識到可承受和可擴展的云架構的優勢。
Morpheus數據庫即服務提供企業對其數據智能操作所需的安全性,高可用性和可擴展性。通過Morpheus使用100%的裸機SSD托管和性能最大化。該服務為Amazon Web Services和其他對等點以及云托管平臺提供超低延遲。
Hadoop的Nuts和Bolts大數據分析
Hadoop架構將數據存儲和處理都分配到網絡上的所有節點。 通過將處理數據的小程序放置在具有更大數據集的節點中,不需要將數據流傳輸到處理模塊。Hadoop調度和資源管理框架執行映射并減少集群環境中的階段步驟。
Hadoop分布式文件系統(HDFS)數據存儲層使用副本來克服節點故障,并針對順序讀取進行了優化,以支持大規模并行處理。當框架擴展到支持Amazon Web Services S3和其他云存儲文件系統時,Hadoop的市場真的要起飛了。
盡管由于設置和運行Hadoop集群的復雜性、框架的成本低和可擴展性等優勢,在中小型企業中采用Hadoop仍然很難。新服務通過提供受管理并可以使用的Hadoop集群來消除復雜性:無需在集群節點上配置或安裝任何服務。
Netflix數據倉庫將Hadoop和Amazon S3結合在一起,實現無限可擴展性
Netflix針對其PB級數據倉庫,通過Hadoop分布式文件系統選擇亞馬遜的存儲服務(S3),以實現基于云服務的動態可擴展性和無限數據計算能力。Netflix從來自電視,計算機和移動設備的數十億個流媒體事件中收集數據。
以S3作為其數據倉庫,可以為具有數百個節點的Hadoop集群配置各種工作負載,所有這些都能夠訪問相同的數據。Netflix使用Amazon的彈性MapReduce分發Hadoop,并開發了自己的Hadoop平臺即服務,它稱之為Genie。Genie允許用戶從Hadoop,Pig,Hive和其他工具提交作業,而無需通過RESTful API來配置新的集群或安裝新的客戶端。
▲Netflix Hadoop-S3數據倉庫在廣泛分布的網絡中提供了無與倫比的數據和計算能力。
Wired的Marco Visibelli在2014年8月13日的文章中解釋說,結合Hadoop和云服務有顯著的潛力。Visibelli描述了公司如何利用Big Data進行預測,通過Amazon Web Services從小型項目擴展,并在小項目取得成功的同時進行擴展。例如,一家歐洲汽車制造商使用Hadoop將幾個供應商數據庫結合到一個單一的15TB數據庫中,兩年內節省了1600萬美元。
Hadoop為各種規模的組織打開了“大數據”大門。 利用Morpheus數據庫作為服務的云服務的可擴展性,安全性,可訪問性和可承受性的項目有更大的成功機會。
-
Hadoop
+關注
關注
1文章
90瀏覽量
16011 -
大數據
+關注
關注
64文章
8908瀏覽量
137656 -
大數據分析
+關注
關注
1文章
134瀏覽量
16985
發布評論請先 登錄
相關推薦
評論