在大數據的發展當中,大數據技術生態的組件,也在不斷地拓展開來,而其中的Hive組件,作為Hadoop的數據倉庫工具,可以實現對Hadoop集群當中的大規模數據進行相應的數據處理。今天我們的大數據入門分享,就主要來講講,Hive應用場景。
關于Hive,首先需要明確的一點就是,Hive并非數據庫,Hive所提供的數據存儲、查詢和分析功能,本質上來說,并非傳統數據庫所提供的存儲、查詢、分析功能。
Hive數據倉庫工具將結構化的數據文件映射為一張數據庫表,并提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執行。通過類SQL語句實現快速MapReduce統計,使MapReduce編程變得更加簡單易行。
Hive應用場景
總的來說,Hive是十分適合數據倉庫的統計分析和Windows注冊表文件。
Hive在Hadoop中扮演數據倉庫的角色。Hive添加數據的結構在HDFS(Hive superimposes structure on data in HDFS),并允許使用類似于SQL語法進行數據查詢。
Hive更適合于數據倉庫的任務,主要用于靜態的結構以及需要經常分析的工作。Hive與SQL相似促使其成為Hadoop與其他BI工具結合的理想交集。
Hive使用
Hive在Hadoop之上,使用Hive的前提是先要安裝Hadoop。
Hive要分析的數據存儲在HDFS,Hive為數據創建的表結構(schema),存儲在RDMS(relevant database manage system關系型數據庫管理系統,比如mysql)。
Hive構建在基于靜態批處理的Hadoop之上,Hadoop通常都有較高的延遲并且在作業提交和調度的時候需要大量的開銷。因此,Hive并不能夠在大規模數據集上實現低延遲快速的查詢,例如,Hive在幾百MB的數據集上執行查詢一般有分鐘級的時間延遲。
Hive查詢操作過程嚴格遵守Hadoop MapReduce的作業執行模型,Hive將用戶的HiveQL語句通過解釋器轉換為MapReduce作業提交到Hadoop集群上,Hadoop監控作業執行過程,然后返回作業執行結果給用戶。Hive的最佳使用場合是大數據集的批處理作業,例如,網絡日志分析。
Hive優缺點
優點:
操作接口采用類SQL語法,提供快速開發的能力(簡單、容易上手)。
Hive的執行延遲比較高,因此Hive常用于數據分析,對實時性要求不高的場合。
Hive優勢在于處理大數據,對于處理小數據沒有優勢,因為Hive的執行延遲比較高。
Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數。
缺點:
1.Hive的HQL表達能力有限
(1)迭代式算法無法表達遞歸算法
(2)數據挖掘方面不擅長(數據挖掘和算法機器學習)
2.Hive的效率比較低
(1)Hive自動生成的MapReduce作業,通常情況下不夠智能化
(2)Hive調優比較困難,粒度較粗(快)
關于大數據培訓,Hive應用場景,以上就為大家做了大致的介紹了。在大數據應用場景下,Hive更多是作為Hadoop的一個數據倉庫工具,并不直接存儲數據,但是卻不可或缺。
編輯:hfy
-
大數據
+關注
關注
64文章
8904瀏覽量
137630 -
hive
+關注
關注
0文章
12瀏覽量
3856
發布評論請先 登錄
相關推薦
評論