2012注定是不平凡的一年,瑪雅人將世界末日定在這一年的12月21日,然而這一天也許并不意味著結束,而是重生。正如2012對于大數據的意義一樣,經過一年的歷練,IT業界將在2013年迎來大數據元年。
一、2012年度回顧:大數據蓄勢待發迎接元年
(一)2012年大數據呈現新特征
大數據不是剛剛出現的概念,“大數據”最早可以追溯到Apache的開源項目Nutch,當時大數據用來描述更新網絡搜索索引所需批量處理或分析的大量數據集。隨著谷歌MapReduce和GoogleFile System(GFS)的發布,大數據不僅僅用來描述大量的數據,還涵蓋了處理數據的速度。
業界對大數據最普遍的認知是它的4V特征,即海量的數據規模(volume)、快速的數據流轉和動態的數據體系(velocity)、多樣的數據類型(variety)和巨大的數據價值(value)。2012年作為大數據產業蓄勢待發的一年,大數據呈現以下新特征:
1.數據量增長更加迅速。隨著社交網絡和移動互聯網的發展,數據呈現爆炸式增長,甚至過去三年里產生的數據量超越了以往四萬年的數據量。國內最大的微博——新浪微博在今年第三季度宣布注冊用戶已超過4億,用戶平均每天發布超過10億條微博內容,活躍用戶中有60%通過移動終端登錄,所有來自移動終端的原創內容中,有40%的微博分享照片。根據IDC今年一項研究顯示,未來10年全球數據量將以40%的速度增長,到2020年將達到35ZB(Zettabyte),大數據將迎來ZB時代。然而這僅僅是個開始,未來數據量將達到什么級別,我們無法想象。
2.數據在企業中的地位日益突出。數據是企業最寶貴的資源。當前,企業最迫切的就是希望能從大數據中挖掘商業價值,以保持其在市場中的競爭力。隨著數據挖掘、數據分析和商業智能技術的不斷深入,企業決策越來越依賴于數據。大數據將會創造一個新的經濟領域,該領域的全部任務就是將信息或數據轉化為經濟利益。分析的數據越全面,分析結果就越接近于真實,才能更好的指導企業運營。。企業中的數據既包括結構化數據,也包括非結構化數據,且非結構化數據的比例越來越高。IDC在報告中指出,利用大數據的商業價值:領軍企業與其他企業之間最大的顯著差別在于新數據類型的引入,那些沒有引入新的分析技術和新的數據類型的企業,不太可能成為其行業的領軍者。
3.大數據人才缺口巨大。大數據時代更需要復合型人才,能夠幫助組織在大量信息中挖掘有價值的數據,并將數據轉化為深入的認知和精準預測的模型。大數據人才須具備綜合性素質:他們通常是統計學家并且精通數據建模,同時知道如何在可用數據中使用最佳的算法,這極具技術含量。據Gartner預測,到2015年,全球將新增440萬個與大數據相關的工作崗位,且會有25%的組織設立首席數據官職位。今年7月,阿里巴巴集團成為國內第一家任命首席數據官的企業,業內也普遍看好數據人才的未來。
4.企業對大數據的投入增加。2012年大數據市場的增長速度明顯快于整個IT市場,據Gartner的最新統計,大數據市場銷售額將在2012年增長21.4%,達到340億美元。在今年大數據總開支中,只有43億美元或12.6%的資金是直接由新的大數據功能產生的,而大部分的開支仍流向比較傳統的解決方案,以滿足企業對速度、多樣性和數據容量的需求。目前企業對大數據的投入還停留在基礎設施建設階段,想要真正將數據轉化為價值,還需繼續在數據分析和展現等環節加大投入。
(二)IT巨頭進軍大數據 新興企業不斷涌現
大數據帶來的商業機遇被越來越多的廠商看重,傳統IT廠商陸續推出大數據產品及解決方案,引入多年技術積累和客戶資源;同時大數據新興企業不斷涌現,大有超越前者之勢。
1.IT巨頭進軍大數據。以IBM、Oracle、SAP、Intel、微軟為代表的老牌IT廠商將業務觸角伸向大數據產業,推出軟件、硬件及軟硬件一體化的行業解決方案。這其中既包括對Hadoop等開源大數據技術的集成,也包括各大廠商獨有的創新技術。
收購也是IT巨頭進入大數據市場的敲門磚。今年4月,虛擬化巨頭VMware收購大數據分析的初創企業Cetas,提供Hadoop平臺上的分析服務,從而開啟VMware大數據之旅。另外,大數據收購案例還包括Teradata收購高級分析和管理各種非結構化數據領域的市場領導者和開拓者Aster Data,IBM收購商業分析公司Netezza等。
這些老牌IT廠商技術實力不俗,產品線豐富,在各個領域發揮重要作用。進軍大數據市場,既增加了雄厚的技術底蘊,也能夠讓客戶更容易的接受他們的產品或解決方案,逐漸成為大數據產業發展的主力軍。
2.新興企業不斷涌現。與那些老牌IT廠商不同,大數據市場還吸引了許多新興企業的加盟。面對大數據帶來的無限商機,初創公司開始挖掘大數據的商業價值,推出別具一格的產品或解決方案。
在這些新興企業中,有業內比較熟悉的基于Apache Hadoop的大數據分析解決方案的提供商Datameer、大數據分析公司Connotate、大數據技術初創公司ClearStory Data等,其中大數據公司Splunk于今年4月在納斯達克成功上市。
新興企業擁有獨特的技術優勢,是傳統IT企業所不具有的。相對于IT巨頭,新興企業更能夠從細化的角度服務企業,向企業提供更專業的大數據服務。因此,在充滿機遇的大數據市場,新興企業完全有可能超越IT巨頭,在短時間內獲得市場的認可。
二、關鍵詞盤點:回顧大數據走過的2012年
2012年,大數據產業蓄勢待發,涌現出大批新產品與解決方案,同時也有許多熱點事件歷歷在目。接下來筆者將對2012年大數據領域的熱點事件進行盤點,回顧與大數據共同走過的2012年。
(一)關鍵詞:一體機
年初,隨著Oracle大數據機的正式發布,一體機成為數據整體解決方案的代名詞。這種軟硬件結合的方式簡化了企業管理和應用的難度,上線和部署也很簡單。IDC預測,在未來幾年里,數據倉庫一體機、NoSQL一體機以及其它一些將多種技術結合的一體化設備將進一步快速發展。
但業內對此存在一定爭議,有研究機構指出,大數據一體機價格昂貴且架構不靈活,用戶完全可以自己搭建大數據基礎架構。放下爭議不說,先來看看市面上的幾款大數據一體機:
?2012年1月,Oracle正式發布大數據機。Oracle大數據機是一個硬、軟件集成系統,融合了Cloudera公司的Distribution Including Apache Hadoop和Cloudera Manager,以及一個開源R。該系統采用Oracle Linux操作系統,配備有Oracle NoSQL數據庫社區版本和Oracle HotSpot Java虛擬機。
值得一提的是Oracle大數據機中的Cloudera Manager軟件,是業界首個針對Apache Hadoop(CDH)的端到端管理應用程序。Cloudera Manager能提供一些非常重要的Hadoop集群管理功能:自動化的Hadoop部署,通過一個用戶界面進行集中式的管理,還可以對相關配置進行管理。有分析師指出,Hadoop對于企業用戶來說的技術門檻稍微有些高,因此像Cloudera Enterprise或者Cloudera Manager這樣的管理軟件可以很好地幫助企業用戶對Hadoop進行管理。
?2012年10月IBM InterConnect 2012大會上,IBM攜全新的PureData產品系列亮相大數據一體機市場。IBM PureData作為一款全新的數據服務交付平臺,與它的前輩PureSystems一樣,整合了基礎架構、統一平臺管理和專家知識體系。
面向復雜數據處理任務,IBM開發出針對特定工作負載的三款產品,分別為PureData System for Transactions、PureData System for Analytics 和PureData System for Operational Analytics,可分別應用于OLTP(聯機事務處理)、OLAP(聯機分析處理)和大數據分析操作。其中,PureData System for Analytics能夠提供超越傳統數據系統十倍、乃至百倍的速度,以及是上一代Netezza技術20倍的面向查詢的并發與吞吐能力,值得關注。
除此之外,微軟并行數據倉庫一體機、浪潮大數據一體機以及Etu Hadoop一體機等,都在今年陸續發布或推廣,大數據迎來一體機的時代。
(二)關鍵詞:內存計算
隨著內存價格的下降,內存計算開始引領新的熱潮,以SAP HANA為首的內存計算平臺、內存數據庫等內存相關技術使計算速度由量變轉向質變,即將開啟新的時代。
今年7月份舉行的SAP中國商業同略會和12月份舉行的SAP TechEd這兩次重要的大會上,SAP把重點都放在了HANA上。SAP HANA將數據放在內存中處理,與內存數據庫的功能極為相似,但它又不完全是一個數據庫。SAP HANA可以用來加速現有的解決方案,包括BI和OLAP等,但是它真正的強項是用SAP HANA開發全新的應用。
目前全球已有150多家客戶基于HANA創業,上海寰融就是這樣一家初創企業,它以SAP HANA平臺為基礎搜集金融數據進行深入分析,為客戶提供相關金融服務。借助HANA平臺,這些初創企業將創新帶給他們的客戶,提升自身價值。
在SAP HANA內存計算平臺的帶動下,SAP的其他產品也獲得巨大飛躍,尤其是Sybase數據庫產品。Oracle ACE總監蓋國強在其微博中表示,Sybase憑借SAP HANA再燃生機。SAP收購了Sybase之后,整合產品優勢使得Sybase重燃生機,在2011年的市場份額上Sybase獲得了顯著增長。SAP隨后推出的HANA產品對Oracle展開競爭,相信SAP借產品優勢必然能夠讓Sybase獲得再一次的成長機遇。
Oracle也有一款類似的產品,即商業智能機Oracle Exalytics。業界經常拿這兩款產品進行比較,兩家廠商也經常因為這種比較而相互抨擊。據了解,Oracle Exalytics和SAP HANA有三個共同點:1、都使用內存數據庫技術;2、都是軟硬件集成化設備;3、都用來處理分析工作負載。除上述的幾點之外,兩個產品其實并沒有可比性。
那么兩款產品如何選擇呢?專業人士建議,如果企業正在使用Oracle的產品,并且想要對Oracle數據庫中添加一個智能緩存的話,那么應該選擇Exalytics。但如果想要一個新的數據庫,并想要超過原有Oracle性能10倍或者100倍,那么SAP HANA絕對是首選。
在內存計算領域,微軟也開始行動了。在今年11月份舉辦的SQL PASS大會上,微軟也透露了SQL Server內存數據庫的內幕信息。這個名為“Hekaton”的新項目,是一個針對交易型應用系統的SQL Server內存數據庫功能。據悉,Hekaton以及之前發布的xVelocity列存儲功能將在下一版本的SQL Server數據庫平臺中正式亮相。
三、2013年展望:大數據發展十大趨勢分析
2012年大數據發展如火如荼,大有趕超云計算之勢。如果把今年比作大數據落地生根的一年,那么2013年將迎來其茁壯成長,甚至開花結果的一年。有預測稱,大數據市場將以每年40%的速度增長,2012年大數據市場規模約為50億美元,2013年將翻倍。2013年大數據發展有哪些新趨勢呢?不管是IDC、Gartner還是國內大數據研究機構都給出了各自的答案,筆者在這里總結一下各方觀點,并談談自己的想法。
預測1:開源大數據商業化
隨著閉源軟件在數據分析領域的地盤不斷縮小,老牌IT廠商正在改變商業模式,向開源靠攏,并加大專業服務和系統集成方面的力度,幫助客戶向開源的、面向云的分析產品遷移,主要是Hadoop和R兩類技術。與人們的傳統理解不同,大數據市場開源的盛行不會抑制市場的商業機會,相反開源將會給基礎架構硬件、應用程序開發工具、應用、服務等各個方面的相關領域帶來更多的機會。
預測2:Hadoop將加速發展
做為大數據領域的代表技術,許多企業都把明年的計劃放在Hadoop上。預測稱用戶對Hadoop的優化將更注重硬件,同時,對企業友好的Hadoop技術市場將達到前所未有的高峰。從整體上說,不僅是Hadoop本身本會得到迅猛的發展,同時Hadoop在多個數據中心中的配置和無縫集成技術也將成為熱門。Hadoop的專業知識正在飛速增長,但是這方面優秀的人才仍然很缺乏。
預測3:大數據復雜度降低
大數據技術的落地將會有兩個特點:一個是對MapReduce依賴越來越少,另外一個是會把Hadoop技術深入的應用到企業的軟件架構中。針對第一個特點,像Cloudera的Impala和微軟的PolyBase這樣的軟件會得到充分發展,他們繞開了MapReduce,直接對存在HDFS中的數據進行處理。針對第二個特點,大規模的使用Hadoop是個必然趨勢,漸漸的就會形成行業的標準,進而成為更有價值的軟件基礎,而不僅是自己內部使用。
預測4:打包的大數據行業分析應用
隨著大數據逐漸走向各個行業,基于行業的大數據分析應用需求也日益增長。未來幾年中針對特定行業和業務流程的分析應用將會以預打包的形式出現,這將為大數據技術供應商打開新的市場。這些分析應用內容還會覆蓋很多行業的專業知識,也會吸引大量行業軟件開發公司的投入。(IDC)
預測5:大數據細分市場
大數據相關技術的發展,將會創造出一些新的細分市場。例如,以數據分析和處理為主的高級數據服務,將出現以數據分析作為服務產品提交的分析即服務(Analyze as a Service)業務;將多種信息整合管理,創造對大數據統一的訪問和分析的組件產品;基于社交網絡的社交大數據分析;甚至會出現大數據技能的培訓市場,教授數據分析課程等。(IDC)
預測6:大數據推動公司間的并購
大數據概念覆蓋范圍非常廣,包括非結構化數據從存儲、處理到應用的各個環節,與大數據相關的軟件廠商也非常多,但是又沒有哪一家廠商可以覆蓋大數據的各個方面。因此,在未來幾年中,大型IT廠商將為了完善自己的大數據產品線進行并購,首當其沖的將是信息管理分析軟件廠商、預測分析和數據展現廠商等。
預測7:大數據分析的革命性方法出現
在大數據分析上,將出現革命性的新方法。就像計算機和互聯網一樣,大數據可能是新一波技術革命。從前的很多算法和基礎理論可能會產生理論級別的突破。(CCF)
預測8:大數據與云計算:深度融合
大數據處理離不開云計算技術,云計算為大數據提供彈性可擴展的基礎設施支撐環境以及數據服務的高效模式,大數據則為云計算提供了新的商業價值,大數據技術與云計算技術必有更完美的結合。同樣的,云計算、物聯網、移動互聯網等新興計算形態,既是產生大數據的地方,也是需要大數據分析方法的領域。(CCF)
預測9:大數據一體機陸續發布
自云計算和大數據概念被提出后,針對該市場推出的軟硬件一體化設備就層出不窮。在未來幾年里,數據倉庫一體機、NoSQL一體機以及其它一些將多種技術結合的一體化設備將進一步快速發展。
預測10:大數據安全令人擔憂
大數據的不斷增加,對數據存儲的物理安全性要求會越來越高,從而對數據的多副本與容災機制提出更高的要求。網絡和數字化生活使得犯罪分子更容易獲得關于人的信息,也有了更多不易被追蹤和防范的犯罪手段,可能會出現更高明的騙局。(CCF)
總結
2012年的大數據領域,Hadoop成為絕對的主角。隨著大數據基礎設施的不斷完善,數據分析和商業智能工具將逐漸成為大數據的主力軍。無論是IT巨頭還是新興企業都覺察到了大數據帶來的前所未有的機遇,讓我們做好一切準備,迎接2013大數據元年的到來。
?
評論
查看更多