“大數據 ”這個概念火了很久,但又很不容易說得清楚(不然呢?怎么會是個位數的回答),這時候買本書來看看可能會更香。
先說結論——大數據技術,其實就是一套完整的“數據+業務+需求”的解決方案。
它其實是一個很寬泛的概念,涉及五個領域:
從1到5,越來越需要技術背景;從5到1,越來越貼近具體業務。
其實,除了像搜索引擎這樣依靠數據技術而誕生的產品外,大部分互聯網產品在生存期,即一個產品從0到1的階段,并不是特別需要大數據技術的。而在產品的發展期,也就是從“1”到“無窮”的階段,“大數據技術”對產品的作用才會逐漸體現。
主要原因是初期產品的功能和服務較少,也沒有“積累的用戶數據”用于模型研發。所以,我們常聽說“構建大數據的壁壘”,這里面,“數據技術”是小壁壘,“大數據”本身才是大壁壘。
這里就從“大數據”開始說起。
什么是大數據?
“大數據 ”從字面上看,就是很“大”的“數據”。先別急著打我。有多大呢?
早N多年前,百度首頁導航每天需要提供的數據超過1.5PB(1PB=1024TB),這些數據如果打印出來將超過5千億張A4紙。
5千億張,是不是很暴力了。
再來兩個不暴力的:
“廣西人最愛點贊,河北人最愛看段子,最關心時政的是山西人,最關注八卦的是天津。”
這組有趣的數據,是今日頭條根據用戶閱讀大數據得出的結論。
而比這個更精準的數據,是三年前美國明尼蘇達州的一則八卦新聞:
一位氣勢洶洶的老爸沖進Target的一家連鎖超市,質問超市為什么把嬰兒用品的廣告發給他正在念高中的女兒。
但非常打臉的是,這位父親跟他女兒溝通后發現女兒真的懷孕了。
在大數據的世界里,事情的原理很簡單——這位姑娘搜尋商品的關鍵詞,以及她在社交網站所顯露的行為軌跡,使超市的營銷系統捕捉到了她懷孕的信息。
你看,單個的數據并沒有價值,但越來越多的數據累加,量變會產生質的飛躍。
腦補一下上面這個事件中的“女兒”,她在網絡營銷系統中的用戶畫像標準可能包括:用戶ID、性別 、性格描述、資產狀況、信用狀況、喜歡的顏色、鐘愛的品牌、大姨媽的日期、上周購物清單等等,有了這些信息,系統就可以針對這個用戶,進行精準的廣告營銷和個性化購物推薦。
當然,除了獲得大數據的個性化推薦,一不留神也容易被大數據割一波韭菜。
亞馬遜在一次新碟上市時,根據潛在客戶的人口信息、購物歷史、上網記錄等,給同一張碟片報出了不同的價格。這場“殺熟事件”的結局就是:亞馬遜的 CEO 貝索斯不得不親自出來道歉,解釋只是在進行價格測試。
大數據 ,說白了,就是巨量數據集合。
大數據來源于海量用戶的一次次的行為數據,是一個數據集合;但大數據的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。
在電影《美國隊長2》里,系統能把一個人從出生開始的所有行為特征,如消費行為,生活行為等,作為標簽存入數據庫中,最后推測出未來這個人是否會對組織產生威脅,然后使用定位系統,把這些預測到有威脅的人殺死。
而在《點球成金》里,球隊用數據建模的方式,挖掘潛在的明星隊員(但其實這個案例并非典型的大數據案例,因為用到的是早已存在的數據思維和方法)。
麥肯錫全球研究所曾給出過大數據一個相當規矩的定義:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
上面這四個特征,也就是人們常說的大數據的4V特征(volume,variety,value,velocity),即大量,多樣性,價值,及時性。
具體來說就是:
- 數據體量巨大(這是大數據最明顯的特征),有人認為,大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);這里按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(進率2^10)。
不過,數據的體量有時可能并沒那么重要。比如13億人口的名字,只占硬盤幾百M空間的數據,但已經是這個領域里非常大的數據。
- 數據類型繁多(也就是多維度的表現形式)。比如,網絡日志、視頻、圖片、地理位置信息等等。
- 價值密度低,商業價值高。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。因此,如何結合業務邏輯并通過強大的機器算法來挖掘數據價值(所謂“浪里淘金”吧),是最需要解決的問題。
- 處理速度快且及時。數據處理遵循“1秒定律”,可從各種類型的數據中快速獲得高價值的信息。
事實上,關于這個“4V”,業界還是有不少爭議的。比如阿里技術委員會的王堅博士,就直接把4V“扔”進了***堆。王堅在《在線》這本書里說過:“我分享時說‘大數據’這個名字叫錯了,它沒有反映出數據最本質的東西。”
他認為,今天數據的意義并不在于有多“大”,真正有意思的是數據變得“在線”了,這恰恰是互聯網的特點。所有東西都能“在線”這件事(數據隨時能調用和計算),遠比“大”更能反映本質。
什么是大數據技術?
對于一個從事大數據行業人來說,一切數據都是有意義的。因為通過數據采集、數據存儲、數據管理、數據分析與挖掘、數據展現等,我們可以發現很多有用的或有意思的規律和結論。
比如,北京公交一卡通每天產生4千萬條刷卡記錄,分析這些刷卡記錄,可以清晰了解北京市民的出行規律,來有效改善城市交通。
但這4千萬條刷卡數據 ,不是想用就能用的,需要通過“存儲”“計算”“智能”來對數據進行加工和支撐,從而實現數據的增值。
而在這其中,最關鍵的問題不在于數據技術本身,而在于是否實現兩個標準:第一,這4千萬條記錄,是否足夠多,足夠有價值;第二,是否找到適合的數據技術的業務應用。
下面就來簡單說說上述提到的一些和“大數據“”形影不離的“小伙伴們”——
1.云計算
由于大數據的采集、存儲和計算的量都非常大,所以大數據需要特殊的技術,以有效地處理大量的數據。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
可以說,大數據相當于海量數據的“數據庫”,云計算相當于計算機和操作系統,將大量的硬件資源虛擬化后再進行分配使用。
整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數據處理,而大數據的發展趨勢是,實時交互式的查詢效率和分析能力, “動一下鼠標就可以在秒級操作PB級別的數據”。
2.Hadoop/HDFS /Mapreduce/Spark
除了云計算,分布式系統基礎架構Hadoop的出現,為大數據帶來了新的曙光。
Hadoop是Apache軟件基金會旗下的一個分布式計算平臺,為用戶提供了系統底層細節透明的開源分布式基礎架構。它是一款用Java編寫的開源軟件框架,用于分布式存儲,并對非常大的數據集進行分布式處理,用戶可以在不了解分布式底層細節的情況下,開發分布式程序,現在Hadoop被公認為行業大數據標準開源軟件。
而HDFS為海量的數據提供了存儲;Mapreduce則為海量的數據提供了并行計算,從而大大提高計算效率。它是一種編程模型,用于大規模數據集(大于1TB)的并行運算,能允許開發者在不具備開發經驗的前提下也能夠開發出分布式的并行程序,并讓其運行在數百臺機器上,在短時間完成海量數據的計算。
在使用了一段時間的 MapReduce 以后,程序員發現 MapReduce 的程序寫起來太麻煩,希望能夠封裝出一種更簡單的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。
同時Spark/storm/impala等各種各樣的技術也相繼進入數據科學的視野。比如Spark是Apache Software Foundation中最活躍的項目,是一個開源集群計算框架,也是一個非常看重速度的大數據處理平臺。
打個比方,如果我們把上面提到的4千萬條記錄比喻成“米”,那么,我們可以用“HDFS”儲存更多的米,更豐富的食材;如果我們有了“Spark”這些組件(包括深度學習框架Tensorflow),就相當于有了“鍋碗瓢盆”,基本上就能做出一頓可口的飯菜了。
其實,大數據火起來的時候,很多做統計出身的人心里曾經是有一萬個***的——因為大數據實在太火,以至于很多公司在招人的時候,關注的是這個人對計算工具的使用,而忽略了人對數據價值和行業的理解。
但目前統計學專業人士確實面臨的一個現實問題是:隨著客戶企業的數據量逐漸龐大,不用編程的方式很難做數據分析。所以,越來越多的統計學家也拿自己開涮:“統計學要被計算機學替代了,因為現在幾乎沒有非大數據量的統計應用”。
總之,掌握編程的基礎,大量的項目實踐,是從事大數據技術領域的必要條件。
-
云計算
+關注
關注
39文章
7824瀏覽量
137450 -
數據庫
+關注
關注
7文章
3807瀏覽量
64420 -
大數據
+關注
關注
64文章
8893瀏覽量
137461
發布評論請先 登錄
相關推薦
評論