一、Hadoop框架
Hadoop是目前世界上應(yīng)用最廣泛的大數(shù)據(jù)工具。Hadoop具有高容錯(cuò)率,且其硬件價(jià)格低,可以使用普通PC服務(wù)器(個(gè)人理解:普通PC服務(wù)器的具體形式包括個(gè)人計(jì)算機(jī)等)構(gòu)成大數(shù)據(jù)集群。
Hadoop的Map和Reduce函數(shù)(Map和Reduce函數(shù)是大數(shù)據(jù)主要編程模型)的計(jì)算模式簡(jiǎn)潔,且開(kāi)發(fā)人員可以通過(guò)多種編程語(yǔ)言編寫(xiě)Map和Reduce函數(shù)。Hadoop的生態(tài)圈(個(gè)人理解:此處的生態(tài)圈指可以使用Hadoop的開(kāi)發(fā)工具集合)包含大量算法和組件。
Hadoop的數(shù)據(jù)吞吐量超過(guò)其他大數(shù)據(jù)計(jì)算框架,但速度稍慢于其他大數(shù)據(jù)計(jì)算框架。
二、Storm框架
Storm框架采用的是流計(jì)算框架(根據(jù)網(wǎng)絡(luò)資料理解:流計(jì)算框架可處理實(shí)時(shí)且持續(xù)進(jìn)入流計(jì)算框架數(shù)據(jù)的計(jì)算),也可被稱(chēng)為實(shí)時(shí)大數(shù)據(jù)處理框架,在數(shù)據(jù)處理延時(shí)(根據(jù)網(wǎng)絡(luò)資料理解:數(shù)據(jù)處理延遲的原因是存儲(chǔ)或檢索數(shù)據(jù)包需要時(shí)間)方面具有較大優(yōu)勢(shì)。
但Storm框架只能進(jìn)行數(shù)據(jù)處理,不能進(jìn)行數(shù)據(jù)存儲(chǔ),因此,Storm框架需借助Hadoop框架的HDFS(分布式文件系統(tǒng))存儲(chǔ)數(shù)據(jù)。
Storm框架由Twitter(推特)開(kāi)發(fā),為開(kāi)源框架,并托管于GitHub(根據(jù)百度百科:GitHub是一個(gè)面向開(kāi)源及私有軟件項(xiàng)目的托管平臺(tái)),Storm框架可被免費(fèi)使用。Storm框架支持的編程語(yǔ)言包括:Java、Ruby、Python。
三、Spark框架
Spark框架包含實(shí)時(shí)流處理工具,Spark框架沒(méi)有存儲(chǔ)數(shù)據(jù)功能。Spark框架可以與Hadoop框架集成,代替Hadoop框架的Map和Reduce函數(shù);也可以將Spark框架單獨(dú)部署集群(根據(jù)網(wǎng)絡(luò)資料理解:部署集群的含義是在集群內(nèi)的所有電腦或服務(wù)器中安裝同一應(yīng)用),但需要借助HDFS等分布式存儲(chǔ)系統(tǒng)存儲(chǔ)數(shù)據(jù)。
Spark框架是基于內(nèi)存的框架,因此,Spark框架的運(yùn)算速度快,其速度約為Hadoop框架的100倍。
四、Flink框架
(1)與Spark框架相同,F(xiàn)link框架也是基于內(nèi)存的實(shí)時(shí)計(jì)算框架。
(2)Flink框架的數(shù)據(jù)處理速度快于Spark框架的數(shù)據(jù)處理速度。Flink框架支持毫秒級(jí)的流計(jì)算,Spark框架支持秒級(jí)的流計(jì)算。
(3)相比于Spark框架,F(xiàn)link框架與Hadoop框架具有更好的兼容性。
(4)Flink框架支持API(根據(jù)百度百科理解:API一般指應(yīng)用程序編程接口,可將此處接口理解為服務(wù)的傳遞者。API可使開(kāi)發(fā)人員訪問(wèn)其他系統(tǒng)對(duì)外提供的功能接口或服務(wù),且開(kāi)發(fā)人員無(wú)需訪問(wèn)該功能接口或服務(wù)的源代碼或理解該功能接口或服務(wù)的內(nèi)部工作機(jī)制細(xì)節(jié))接口數(shù)量與Spark框架支持API接口數(shù)量相近(此句由網(wǎng)絡(luò)資料總結(jié)),但Flink框架對(duì)SQL的支持相較于Spark框架對(duì)SQL的支持較差。
圖片來(lái)源:網(wǎng)絡(luò)資料
(5)因?yàn)镕link框架較新,使用Flink框架的開(kāi)發(fā)人員較少,所以Flink框架的社區(qū)活躍度低于Spark框架,即有關(guān)Spark框架的問(wèn)題更容易得到解答。
五、Yarn架構(gòu)
Yarn架構(gòu)屬于Hadoop2.0的分支。如圖一所示,Yarn架構(gòu)處于HDFS和MapReduce之間。
圖一,圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》
Yarn架構(gòu)主要由ResourceManager、NodeManager、ApplicationMaster(根據(jù)網(wǎng)絡(luò)資料:ApplicationMaster負(fù)責(zé)與ResourceManager協(xié)商資源,并與NodeManager協(xié)同來(lái)執(zhí)行和監(jiān)控Container) 、Container(根據(jù)網(wǎng)絡(luò)資料:Container可被理解為單個(gè)節(jié)點(diǎn)RAM、CPU、磁盤(pán)的集合)組件構(gòu)成。
Yarn架構(gòu)的結(jié)構(gòu)是master/slave結(jié)構(gòu)(master的中文含義是主人,slave的中文含義是奴隸,master/slave結(jié)構(gòu)即為主從結(jié)構(gòu))。如圖二所示,ResourceManager是master,即主節(jié)點(diǎn);NodeManager是slave,即從節(jié)點(diǎn)。
圖二,圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》
審核編輯:劉清
-
JAVA
+關(guān)注
關(guān)注
19文章
2974瀏覽量
104984 -
PC服務(wù)器
+關(guān)注
關(guān)注
0文章
10瀏覽量
7590 -
編程語(yǔ)言
+關(guān)注
關(guān)注
10文章
1950瀏覽量
34906 -
Hadoop
+關(guān)注
關(guān)注
1文章
90瀏覽量
16011 -
HDFS
+關(guān)注
關(guān)注
1文章
30瀏覽量
9626
原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(21)——大數(shù)據(jù)計(jì)算框架簡(jiǎn)介
文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論