色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

工業大數據處理領域的“網紅”——Apache Spark

格創東智 ? 2018-12-17 10:55 ? 次閱讀

生活離不開水,同樣離不開數據,我們被數據包圍,在數據中生活。當數據越來越多時,就成了大數據。


在“中國制造2025”的技術路線圖中,工業大數據是作為重要突破點來規劃的,而在未來的十年,以數據為核心構建的智能化體系會成為支撐智能制造和工業互聯網的核心動力。而想要理解大數據,就需要理解大數據相關的查詢、處理、機器學習、圖計算和統計分析等。Apache Spark作為新一代輕量級大數據快速處理平臺,集成了大數據相關的各種能力,是理解大數據的首選。

簡單來講,Spark就是一個快速、通用的大規模數據處理引擎,各種不同的應用,如實時流處理、機器學習、交互式查詢等,都可以通過Spark 建立在不同的存儲和運行系統上。今天的格物匯,就帶大家來認識一下如日中天、高速發展的大數據處理明星——Spark。

1Spark發展歷程


  • 2009年,Spark誕生于伯克利大學AMPLab,最開初屬于伯克利大學的研究性項目,最開始Spark只是一個實驗性的項目,代碼量非常少,僅有3900行代碼左右,屬于輕量級的框架。

  • 2010年,伯克利大學正式開源了Spark項目。

  • 2013年6月,Spark成為了Apache基金會下的項目,進入高速發展期,第三方開發者貢獻了大量的代碼,活躍度非常高。

  • 2014年2月,Spark以飛快的速度稱為了Apache的頂級項目。

  • 2014年5月底Spark1.0.0發布。

  • 2016年6月Spark2.0.0發布

  • 2018年11月 Spark2.4.0 發布


Spark作為Hadoop生態中重要的一員,其發展速度堪稱恐怖,從誕生到成為Apache頂級項目不到五年時間,不過在如今數據量飛速增長的環境與背景下,Spark作為高效的計算框架能收到如此大的關注也是有所依據的。

2Spark的特點


速度快

Spark通過使用先進的DAG調度器、查詢優化器和物理執行引擎,可以高性能地進行批量及流式處理。使用邏輯回歸算法進行迭代計算,Spark比Hadoop速度快100多倍。


簡單易用

Spark目前支持多種編程語言,比如Java、Scala、Python、R。熟悉其中任一門語言的都可以直接上手編寫Spark程序,非常方便。還支持超過80種高級算法,使用戶可以快速構建不同應用。并且Spark還支持交互式的Python和Scala的Shell,這意味著可以非常方便的在這些Shell中使用Spark集群來驗證解決問題的方法,而不是像以前一樣,需要打包、上傳集群、驗證等。這對于原型開發非常重要。


通用性高

Spark 目前主要由四大組件,如下:

  • Spark SQL:SQL on Hadoop,能夠提供交互式查詢和報表查詢,通過JDBC等接口調用;

  • Spark Streaming::流式計算引擎;

  • Spark MLlib:機器學習庫;

  • Spark GraphX:圖計算引擎。

擁有這四大組件,成功解決了大數據領域中,離線批處理、交互式查詢、實時流計算、機器學習與圖計算等最重要的任務和問題,這些不同類型的處理都可以在同一應用中無縫使用。Spark統一的解決方案非常具有吸引力,畢竟任何公司都想用統一的平臺處理問題,減少開發和維護的人力成本和部署平臺的物理成本。當然還有,作為統一的解決方案,Spark并沒有以犧牲性能為代價。相反,在性能方面Spark具有巨大優勢。


可融合性

Spark可以運行在standalone、YARN、Mesos、Kubernetes及EC2多種調度平臺上。其中Standalone模式不依賴第三方的資源管理器和調度器,這樣降低了Spark的使用門檻,使得所有人可以非常容易地部署和使用Spark。

Spark可以處理所有Hadoop支持的數據,包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。這對于已部署Hadoop集群的用戶特別重要,因為不需要做任何數據遷移就可以使用Spark強大的處理能力。



3Spark相比MapReduce優勢

Spark與MapReduce 同為計算框架,但作為后起之秀,Spark借鑒了MapReduce,并在其基礎上進行了改進,使得算法性能明顯優于MapReduce,下面大致總結一下兩者差異:

1)Spark把運算的中間數據存放在內存,迭代計算效率更高;MapReduce的中間結果需要落地到磁盤,磁盤io操作多,影響性能。

2)Spark容錯性高,它通過Lineage機制實現RDD算子的高效容錯,某一部分丟失或者出錯,可以通過整個數據集的計算流程的血緣關系來實現重建;MapReduce的話容錯可能只能重新計算了,成本較高。

3)Spark更加通用,Spark提供了transformation和action這兩大類的多個功能算子,操作更為方便;MapReduce只提供了map和reduce兩種操作。

4)Spark框架和生態更為復雜,首先有RDD、血緣lineage、執行時的有向無環圖DAG、stage劃分等等,很多時候spark作業都需要根據不同業務場景的需要進行調優已達到性能要求;MapReduce框架及其生態相對較為簡單,對性能的要求也相對較弱,但是運行較為穩定,適合長期后臺運行。

4Spark與工業互聯平臺


工業互聯網帶來了工業數據的快速發展,對于日益增加的海量數據,傳統單機因本身的軟硬件限制無法應對海量數據的處理、分析以及深度挖掘,但作為分布式計算框架的Spark卻能輕松應付這些場景。在工業互聯網平臺上,Spark 既能快速實現工業現場海量流數據的處理轉換,又能輕松應對工業大數據平臺中海量數據的快速批處理分析,自身集成的機器學習框架能夠對海量工業數據進行深度挖掘分析,從而幫助管理者進行決策分析。


基于Spark框架自身的優良設計理念以及社區的蓬勃發展狀態,相信未來Spark會在工業互聯網平臺扮演越來越重要的角色。

本文作者:黃歡,格創東智大數據工程師 (轉載請注明來源及作者)



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    8897

    瀏覽量

    137527
  • 智能制造
    +關注

    關注

    48

    文章

    5576

    瀏覽量

    76399
  • 工業互聯網
    +關注

    關注

    28

    文章

    4324

    瀏覽量

    94172
  • SPARK
    +關注

    關注

    1

    文章

    105

    瀏覽量

    19928
  • 工業大數據
    +關注

    關注

    0

    文章

    72

    瀏覽量

    7854
收藏 人收藏

    評論

    相關推薦

    緩存對大數據處理的影響分析

    緩存對大數據處理的影響顯著且重要,主要體現在以下幾個方面: 一、提高數據訪問速度 在大數據環境中,數據存儲通常采用分布式存儲系統,數據量龐大
    的頭像 發表于 12-18 09:45 ?180次閱讀

    cmp在數據處理中的應用 如何優化cmp性能

    CMP在數據處理中的應用 CMP(并行處理)技術在數據處理領域扮演著越來越重要的角色。隨著數據量的爆炸性增長,傳統的串行
    的頭像 發表于 12-17 09:27 ?294次閱讀

    上位機實時數據處理技術 上位機在智能制造中的應用

    。這種技術對于工業自動化、智能制造等領域至關重要。 在上位機實時數據處理中,關鍵技術包括數據采集、數據處理
    的頭像 發表于 12-04 10:29 ?599次閱讀

    FPGA在數據處理中的應用實例

    FPGA(現場可編程門陣列)在數據處理領域有著廣泛的應用,其高度的靈活性和并行處理能力使其成為許多高性能數據處理系統的核心組件。以下是一些FPGA在
    的頭像 發表于 10-25 09:21 ?457次閱讀

    實時數據處理的邊緣計算應用

    實時數據處理的邊緣計算應用廣泛,涵蓋了多個行業和領域。以下是一些典型的應用場景: 一、工業制造 在工業制造領域,邊緣計算技術被廣泛應用于生產
    的頭像 發表于 10-24 14:11 ?426次閱讀

    基于Kepware的Hadoop大數據應用構建-提升數據價值利用效能

    處理大數據集。 Hadoop的生態系統非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數據應用。Hadoop廣泛應用于各種場景,包括數據處理
    的頭像 發表于 10-08 15:12 ?167次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數據</b>應用構建-提升<b class='flag-5'>數據</b>價值利用效能

    spark運行的基本流程

    前言: 由于最近對spark的運行流程非常感興趣,所以閱讀了《Spark大數據處理:技術、應用與性能優化》一書。通過這本書的學習,了解了spark的核心技術、實際應用場景以及性能優化的
    的頭像 發表于 07-02 10:31 ?428次閱讀
    <b class='flag-5'>spark</b>運行的基本流程

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡稱Spark)是一個開源的分布式計算框架,由UC Berkeley AMP Lab開發,可用于批處理、交互式查詢(
    的頭像 發表于 06-28 17:12 ?715次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案

    工業大數據云平臺在設備預測性維護中的作用

    ,只有保證設備的安全穩定運行才能保障生產的持續,質量的可靠,提升企業產品競爭力。 因此,企業就需要加強對設備狀況的及時把握,并一定程度上實現工業設備預測性維護。為此,數之能提供的工業大數據云平臺可以全面接入
    的頭像 發表于 06-28 15:31 ?263次閱讀

    淺談存內計算生態環境搭建以及軟件開發

    一個高效和靈活的平臺,特別適合實時數據分析和在線事務處理。這一環境的優勢在于其極高的數據處理速度和效率,顯著減少了數據處理時間,并支持大數據
    發表于 05-16 16:40

    工業大數據發展面臨的問題

    工業大數據作為工業與數字經濟之間的橋梁紐帶,對加快工業數字化轉型、推進數實融合,支撐新型工業化建設意義重大。
    的頭像 發表于 04-16 11:52 ?557次閱讀

    如何利用DPU加速Spark大數據處理? | 總結篇

    SSD速度通過NVMe接口得到了大幅提升,并且網絡傳輸速率也進入了新的高度,但CPU主頻發展并未保持同等步調,3GHz左右的核心頻率已成為常態。 在當前背景下Apache Spark大數據處理工具中,盡管存儲和網絡性能的提升極
    的頭像 發表于 04-02 13:45 ?1086次閱讀
    如何利用DPU加速<b class='flag-5'>Spark</b><b class='flag-5'>大數據處理</b>? | 總結篇

    Spark基于DPU Snappy壓縮算法的異構加速方案

    一、總體介紹 1.1 背景介紹 Apache Spark是專為大規模數據計算而設計的快速通用的計算引擎,是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些不同之處使
    的頭像 發表于 03-26 17:06 ?840次閱讀
    <b class='flag-5'>Spark</b>基于DPU Snappy壓縮算法的異構加速方案

    RDMA技術在Apache Spark中的應用

    背景介紹 在當今數據驅動的時代,Apache?Spark已經成為了處理大規模數據集的首選框架。作為一個開源的分布式計算系統,
    的頭像 發表于 03-25 18:13 ?1559次閱讀
    RDMA技術在<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中的應用

    基于DPU和HADOS-RACE加速Spark 3.x

    、Python、Java、Scala、R)等特性在大數據計算領域被廣泛使用。其中,Spark SQL 是 Spark 生態系統中的一個重要組件,它允許用戶以結構化
    的頭像 發表于 03-25 18:12 ?1395次閱讀
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x
    主站蜘蛛池模板: 九色PORNY真实丨国产大胸| 在线观看qvod| 国产又粗又黄又爽的大片| 在线高清视频不卡无码| 日本人HD18HD18| 精品国产自在天天线2019| xxx日本黄色| 一级毛片直接看| 四虎国产精品永久免费入口| 邻家美姨在线观看全集免费| 国产精品看高国产精品不卡| 99国产精品白浆在线观看免费| 亚洲91av| 日韩精品久久日日躁夜夜躁影视 | 一区二区三区四区国产| 色婷婷我要去我去也| 免费看毛片的网址| 精品午夜寂寞影院在线观看| 国产成人拍精品视频网| lesbabes性欧美| 在线精品国精品国产不卡| 玄幻全黄h全肉后宫| 欧美尤物射精集锦| 麻豆AV无码蜜臀AV色哟| 换脸国产AV一区二区三区| 国产成人h在线视频| 爱如潮水3免费观看日本| 最近中文字幕MV免费高清在线| 性色AV一区二区三区V视界影院 | 久久天天婷婷五月俺也去| 国产婷婷一区二区在线观看| 芳草地在线观看免费视频| xiao77唯美清纯| bbw videos 欧美老妇| 97视频免费观看2区| 18禁止观看免费私人影院| 在线免费公开视频| 伊人久久国产| 伊人热人久久中文字幕| 伊人久久国产免费观看视频| 亚洲熟妇AV乱码在线观看|