色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)技術(shù)發(fā)展史簡介 淺談大數(shù)據(jù)挖掘與機器學(xué)習(xí)

454398 ? 來源:itpub技術(shù)棧 ? 作者:itpub技術(shù)棧 ? 2020-09-29 15:46 ? 次閱讀

目前大數(shù)據(jù)已經(jīng)成為了各家互聯(lián)網(wǎng)公司的核心資產(chǎn)和競爭力了,其實不僅是互聯(lián)網(wǎng)公司,包括傳統(tǒng)企業(yè)也擁有大量的數(shù)據(jù),也想把這些數(shù)據(jù)發(fā)揮出作用。在這種環(huán)境下,大數(shù)據(jù)技術(shù)的重要性和火爆程度相信沒有人去懷疑。

AI人工智能又是基于大數(shù)據(jù)技術(shù)基礎(chǔ)上發(fā)展起來的,大數(shù)據(jù)技術(shù)已經(jīng)很清晰了,但是AI目前還未成熟啊,所以本文就天馬行空一下,從大數(shù)據(jù)的技術(shù)變遷歷史中來找出一些端倪,猜一猜AI人工智能未來的發(fā)展。

最近斷斷續(xù)續(xù)的在看《極客時間》中「 從0開始學(xué)大數(shù)據(jù) 」專欄的文章,受益匪淺,學(xué)到了很多。尤其是非常喜歡作者李智慧講的那句話“學(xué)習(xí)大數(shù)據(jù)最好的時間是十年前,其次就是現(xiàn)在”,把這句話改到AI也適用,“學(xué)習(xí)AI最好的時間是十年前,其次就是現(xiàn)在”,任何知識都是這樣。下面我們就來詳細聊一聊。

一、先聊一聊大數(shù)據(jù)技術(shù)發(fā)展史?

我們使用的各種大數(shù)據(jù)技術(shù),最早起源于Google當年公布的三篇論文,Google FS(2003年)、MapReduce(2004年)、BigTable(2006年),其實Google當時并沒有公布其源碼,但是已經(jīng)把這三個項目的原理和實現(xiàn)方式在公布的論文中詳細的描述了,這幾篇論文面世后,就引爆了行業(yè)的大數(shù)據(jù)學(xué)習(xí)和研究的浪潮。

隨后一個叫 Doug Cutting 的技術(shù)大牛(也就是寫 Lucene 的那位,做JAVA的同學(xué)應(yīng)該都很熟悉)就開始根據(jù)Google公布的論文去開發(fā)相關(guān)系統(tǒng),后來慢慢發(fā)展成了現(xiàn)在的 Hadoop,包括 MapReduce 和 HDFS。

但是在當時,使用 MapReduce 進行數(shù)據(jù)分析和應(yīng)用還是有很大門檻的,畢竟要編寫 Map 和 Reduce 程序。只能大數(shù)據(jù)工程師上馬,普通BI分析師還是一臉懵逼。所以那個時候都是些大公司在玩。

既然有這么大門檻,就會有人勇于站出來去解決門檻,比如 Yahoo,他們開發(fā)一個叫做 Pig 的東西,Pig是一個腳本語言,按照Pig的語法寫出來的腳本可以編譯成 MapReduce 程序,然后直接在 Hadoop 上運行了。

這個時候,大數(shù)據(jù)開發(fā)的門檻確實降了一點。

不過,Pig大法雖好,但還是需要編寫腳本啊,這還是碼農(nóng)的活兒啊。人們就在想,有沒有不用寫代碼的方法就能做大數(shù)據(jù)計算呢,還真有,這個世界的進步就是由一群善于思考的“懶人”推動的。

于是,F(xiàn)acebook公司的一群高智商家伙發(fā)布了一個叫做 Hive 的東西,這個 Hive 可以支持使用 SQL 語法直接進行大數(shù)據(jù)計算。原理其實就是,你只需要寫一個查詢的 SQL,然后 Hive 會自動解析 SQL 的語法,將這個SQL 語句轉(zhuǎn)化成 MapReduce 程序去執(zhí)行。

這下子就簡單了,SQL 是BI/數(shù)據(jù)分析師們最為常用的工具了,從此他們可以無視碼農(nóng),開開心心的獨立去寫Hive,去做大數(shù)據(jù)分析工作了。Hive從此就火爆了,一般公司的大多數(shù)大數(shù)據(jù)作業(yè)都是由Hive完成的,只有極少數(shù)較為復(fù)雜的需求才需要數(shù)據(jù)開發(fā)工程師去編寫代碼,這個時候,大數(shù)據(jù)的門檻才真真的降低了,大數(shù)據(jù)應(yīng)用也才真正普及,大大小小的公司都開始在自己的業(yè)務(wù)上使用了。

但是,人們的追求不止如此,雖然數(shù)據(jù)分析便利了,但是大家又發(fā)現(xiàn) MapReduce 程序執(zhí)行效率不夠高啊,其中有多種原因,但有一條很關(guān)鍵,就是 MapReduce 主要是以磁盤作為存儲介質(zhì),磁盤的性能極大的限制了計算的效率。

在這個時候,Spark 出現(xiàn)了,Spark 在運行機制上、存儲機制上都要優(yōu)于 MapReduce ,因此大數(shù)據(jù)計算的性能上也遠遠超過了 MapReduce 程序,很多企業(yè)又開始慢慢采用 Spark 來替代 MapReduce 做數(shù)據(jù)計算。

至此,MapReduce 和 Spark 都已成型,這類計算框架一般都是按“天”為單位進行數(shù)據(jù)計算的,因此我們稱它們?yōu)椤按髷?shù)據(jù)離線計算”。既然有“離線計算”,那就必然也會有非離線計算了,也就是現(xiàn)在稱為的“大數(shù)據(jù)實時計算”。

因為在數(shù)據(jù)實際的應(yīng)用場景中,以“天”為顆粒出結(jié)果還是太慢了,只適合非常大量的數(shù)據(jù)和全局的分析,但還有很多業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)量不一定非常龐大,但它卻需要實時的去分析和監(jiān)控,這個時候就需要“大數(shù)據(jù)實時計算”框架發(fā)揮作用了,這類的代表有:Storm、Spark Streaming、Flink 為主流,也被稱為 流式計算,因為它的數(shù)據(jù)源像水流一樣一點點的流入追加的。

當然,除了上面介紹的那些技術(shù),大數(shù)據(jù)還需要一些相關(guān)底層和周邊技術(shù)來一起支撐的,比如 HDFS 就是分布式文件系統(tǒng),用于負責(zé)存儲數(shù)據(jù)的,HBase 是基于HDFS的NoSQL系統(tǒng)、與 HBase類似的還有 Cassandra也都很熱門。

二、再看一看大數(shù)據(jù)技術(shù)架構(gòu)?

了解大數(shù)據(jù)相關(guān)技術(shù)可以先看下圖:

(圖片來源網(wǎng)絡(luò)

這圖基本上很全面的展示了大數(shù)據(jù)的技術(shù)棧,下面將其主要的部分羅列一下,以便有個清晰的認知:

大數(shù)據(jù)平臺基礎(chǔ):

  • MapReduce,分布式離線計算框架
  • Spark,分布式離線計算框架
  • Storm,流式實時計算框架
  • Spark Streaming,流式實時計算框架
  • Flink,流式實時計算框架
  • Yarn,分布式集群資源調(diào)度框架
  • Oozie,大數(shù)據(jù)調(diào)度系統(tǒng)

分布式文件系統(tǒng):

  • HDFS,分布式文件系統(tǒng)
  • GFS,分布式文件系統(tǒng)

SQL引擎:

  • Spark SQL (Shark),將SQL語句解析成Spark的執(zhí)行計劃在Spark上執(zhí)行
  • Pig,Yahoo的發(fā)布的腳本語言,編譯后會生成MapReduce程序
  • Hive,是Hadoop大數(shù)據(jù)倉庫工具,支持SQL語法來進行大數(shù)據(jù)計算,把SQL轉(zhuǎn)化MapReduce程序
  • Impala,Cloudera發(fā)布的運行在HDFS上的SQL引擎

數(shù)據(jù)導(dǎo)入導(dǎo)出:

  • Sqoop,專門用將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù) 批量 導(dǎo)入導(dǎo)出到Hadoop
  • Canal,可以 實時 將關(guān)系數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入到Hadoop

日志收集:

Flume,大規(guī)模日志分布式收集

大數(shù)據(jù)挖掘與機器學(xué)習(xí)

  • Mahout,Hadoop機器學(xué)習(xí)算法
  • Spark MLlib,Spark機器學(xué)習(xí)算法庫
  • TensorFlow,開源的機器學(xué)習(xí)系統(tǒng)

三、猜一猜AI人工智能的發(fā)展?

通過上面的回顧,我們知道了,因為大量數(shù)據(jù)的產(chǎn)生導(dǎo)致大數(shù)據(jù)計算技術(shù) MapReduce 的出現(xiàn),又因為 MapReduce 的參與門檻問題,導(dǎo)致了 Pig、Hive的出現(xiàn),正是因為這類上手容易的工具的出現(xiàn),才導(dǎo)致大量的非專業(yè)化人員也能參與到大數(shù)據(jù)這個體系,因此導(dǎo)致了大數(shù)據(jù)相關(guān)技術(shù)的飛速發(fā)展和應(yīng)用,又從而進一步推動了機器學(xué)習(xí)技術(shù)的出現(xiàn),有了現(xiàn)在的AI人工智能的發(fā)展。

但目前人工智能技術(shù)的門檻還比較高,并不是任何企業(yè)都能入場的,需要非常專業(yè)化的高端技術(shù)人才去參與,普通人員只能望而卻步,因此AI技術(shù)的應(yīng)用受到了極大的限制,所以也不斷的有人提出對人工智能提出質(zhì)疑。

講到這里,有沒有發(fā)現(xiàn)點什么問題?

歷史的規(guī)律總是那么相似。可以猜測一下,人工智能的門檻有一天也會像 MapReduce 的開發(fā)門檻一樣被打破,一旦人工智能的參與門檻降低了,各類大小企業(yè)都能結(jié)合自己的業(yè)務(wù)場景進入AI領(lǐng)域發(fā)揮優(yōu)勢了,那AI就真的進入高速發(fā)展的通道了,AI相關(guān)實際應(yīng)用的普及就指日可待了。

恩,一定是這樣的,哈哈,現(xiàn)在就可以等著大牛們將AI的基礎(chǔ)平臺建設(shè)好,然后降低參與門檻,進一步就迎來了AI的一片光明,大家從此就可以過上AI服務(wù)人類的美好生活了(暢想中…)。

以上,就是從大數(shù)據(jù)技術(shù)變遷想到AI人工智能發(fā)展的一些想法。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1794

    文章

    47642

    瀏覽量

    239629
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8438

    瀏覽量

    132921
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8908

    瀏覽量

    137644
收藏 人收藏

    評論

    相關(guān)推薦

    淺談大數(shù)據(jù)視頻圖像處理系統(tǒng)技術(shù)

    淺談大數(shù)據(jù)視頻圖像處理系統(tǒng)技術(shù)近年來,隨著計算機、網(wǎng)絡(luò)以及圖像處理、傳輸技術(shù)的飛速發(fā)展,視頻監(jiān)控系統(tǒng)正向著高清化、智能化和網(wǎng)絡(luò)化方向
    發(fā)表于 09-24 15:22

    探尋大數(shù)據(jù)時代的商業(yè)變革

    `科技的進步在很多時候總會超出我們的想象。近年來,“大數(shù)據(jù)”一詞逐漸被大眾所熟知,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。大數(shù)據(jù)時代已然來臨,它
    發(fā)表于 05-27 17:11

    常用大數(shù)據(jù)處理技術(shù)歸類

    “21世紀最缺的是什么?人才!”。在大數(shù)據(jù)發(fā)展如此之快的今天,大數(shù)據(jù)工程師已經(jīng)成為一個新興職業(yè)。大數(shù)據(jù)是信息技術(shù),是人和人、人和
    發(fā)表于 02-28 17:02

    如何從零學(xué)大數(shù)據(jù)

    新如何學(xué)習(xí)大數(shù)據(jù)技術(shù)大數(shù)據(jù)怎么入門?怎么做大數(shù)據(jù)分析?數(shù)據(jù)科學(xué)需要
    發(fā)表于 03-01 15:41

    常見大數(shù)據(jù)應(yīng)用有哪些?

    擁有Java編程語言基礎(chǔ)的前提下,可以學(xué)習(xí)以上大數(shù)據(jù)技術(shù)大數(shù)據(jù)是未來的發(fā)展方向,正在挑戰(zhàn)我們的分析能力及對世界的認知方式,因此,我們與時俱
    發(fā)表于 03-13 16:50

    大數(shù)據(jù)專業(yè)技術(shù)學(xué)習(xí)大數(shù)據(jù)處理流程

    隨著互聯(lián)網(wǎng)的發(fā)展大數(shù)據(jù)也在逐漸彰顯出自己的優(yōu)勢特點,那么關(guān)于大數(shù)據(jù)的處理流程,你是否了解?第一,數(shù)據(jù)采集定義:利用多種輕型數(shù)據(jù)庫來接收發(fā)自
    發(fā)表于 06-11 16:41

    大數(shù)據(jù)開發(fā)核心技術(shù)詳解

    數(shù)據(jù)的核心是云技術(shù)和BI。關(guān)于大數(shù)據(jù)和云計算的關(guān)系人們通常會有誤解,而且也會把它們混起來說,分別做一句話直白解釋就是:云計算就是硬件資源的虛擬化;大數(shù)據(jù)就是海量
    發(fā)表于 07-26 16:26

    NLPIR大數(shù)據(jù)KGB知識圖譜引擎智能挖掘各行數(shù)據(jù)

    挖掘方法),智能建模分析(機器學(xué)習(xí)方法),統(tǒng)計分析等。  數(shù)據(jù)解釋:對于廣大的數(shù)據(jù)信息用戶來講,最關(guān)心的并非是
    發(fā)表于 11-02 14:08

    大數(shù)據(jù)平臺開發(fā)公司有哪些?

    推進大數(shù)據(jù)技術(shù)發(fā)展的重要文件,緊接著又將大數(shù)據(jù)上升到了國家戰(zhàn)略層面。所有這一系列重要舉措,都證明了一件事情——當下,正是大數(shù)據(jù)的風(fēng)口!在互聯(lián)網(wǎng)技術(shù)
    發(fā)表于 11-15 15:17

    NLPIR系統(tǒng)KGB知識圖譜技術(shù)助力大數(shù)據(jù)深度挖掘

    ”。且中國物聯(lián)網(wǎng)校企聯(lián)盟認為,物聯(lián)網(wǎng)的發(fā)展離不開大數(shù)據(jù),依靠大數(shù)據(jù)可以提供足夠有利的資源。  北京理工大學(xué)大數(shù)據(jù)搜索與挖掘實驗室張華平主任研
    發(fā)表于 12-05 11:49

    阿里巴巴高級技術(shù)專家章劍鋒:大數(shù)據(jù)發(fā)展的 8 個要點

    學(xué)習(xí),實時更新機器學(xué)習(xí)模型目前以 Kafka,F(xiàn)link 為代表的流處理計算引擎已經(jīng)為實時計算提供了堅實的底層技術(shù)支持,相信未來在實時可視化數(shù)據(jù)
    發(fā)表于 10-14 10:56

    大數(shù)據(jù)的定義及其應(yīng)用

    目錄1、大數(shù)據(jù)概述1.1. 概述1.2. 大數(shù)據(jù)定義1.3. 大數(shù)據(jù)技術(shù)發(fā)展2、大數(shù)據(jù)應(yīng)用2.1. 大數(shù)
    發(fā)表于 07-12 06:12

    大數(shù)據(jù)技術(shù)與應(yīng)用是學(xué)什么的?

    大數(shù)據(jù)技術(shù)與應(yīng)用是學(xué)什么的?大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)
    發(fā)表于 07-27 07:47

    什么是大數(shù)據(jù)

    ,毅然決定學(xué)習(xí)大數(shù)據(jù)技術(shù),進入相關(guān)行業(yè),而有的人還在觀望,不知道未來大數(shù)據(jù)前景怎么樣?今日博主有幸在1024"程序員節(jié)"上,為大家(更多是入門級的選...
    發(fā)表于 08-31 08:52

    大數(shù)據(jù)技術(shù)主要學(xué)什么 大數(shù)據(jù)技術(shù)就業(yè)方向

    數(shù)據(jù)技術(shù)。   數(shù)據(jù)挖掘機器學(xué)習(xí)數(shù)據(jù)
    的頭像 發(fā)表于 04-14 17:21 ?6630次閱讀
    主站蜘蛛池模板: 无限资源日本2019版 | 色色男_免费 | 红桃视频国产AV | 久久99r66热这里只有精品 | 成在线人免费视频 | 美女扒开尿孔 | 果冻传媒视频在线播放 | 内射人妻无码色AV麻豆去百度搜 | 婷婷久久综合九色综合伊人色 | 无人区日本电影在线观看 | 蜜臀久久99精品久久久久久做爰 | 综合网伊人 | 中文字幕高清在线观看 | 黄色免费网址在线观看 | 一起碰一起噜一起草视频 | 男女啪啪抽搐呻吟高潮动态图 | 肉伦禁忌小说np | 69xx欧美| 狠狠色狠狠色综合日日2019 | 国产三级级在线电影 | 九色终合九色综合88 | 无码专区久久综合久综合字幕 | 受喷汁红肿抽搐磨NP双性 | 农民工老头在出租屋嫖老熟女 | 美女激清床上戏大全 | a一级一片免费观看视频 | 久久久无码精品亚洲日韩按摩 | 早乙女由依在线观看 | 欧美国产精品主播一区 | 翁公咬着小娇乳H边走边欢A | 成人免费公开视频 | 美女被爆插 | 国产精品日本不卡一区二区 | 高H各种PLAY全肉NP | 少妇精品无码一区二区三区 | 美女扒开尿口直播 | 久久re这里精品23 | 日韩免费精品视频 | 久久九九免费 | 大睾丸内射老师 | 伊人久综合|