中國信息化百人會學(xué)術(shù)委員、中國工程院院士李國杰認(rèn)為,目前大數(shù)據(jù)技術(shù)還不成熟,面對海量、異構(gòu)、動態(tài)變化的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理和分析技術(shù)難以應(yīng)對,現(xiàn)有的數(shù)據(jù)處理系統(tǒng)實現(xiàn)大數(shù)據(jù)應(yīng)用的效率較低,成本和能耗較大,而且難以擴(kuò)展,這些挑戰(zhàn)大多來自數(shù)據(jù)本身的復(fù)雜性、計算的復(fù)雜性和信息系統(tǒng)的復(fù)雜性。李國杰認(rèn)為,發(fā)展大數(shù)據(jù)不要一味追求“數(shù)據(jù)規(guī)模大”,不要“技術(shù)驅(qū)動”,要“應(yīng)用為先”,不能拋棄“小數(shù)據(jù)”方法,同時要高度關(guān)注構(gòu)建大數(shù)據(jù)平臺的成本。
大數(shù)據(jù)技術(shù)和人類探索復(fù)雜性的努力有密切關(guān)系。20世紀(jì)70年代,新三論(耗散結(jié)構(gòu)論、協(xié)同論、突變論)的興起對幾百年來貫穿科學(xué)技術(shù)研究的還原論發(fā)起了挑戰(zhàn)。1984年蓋爾曼等3位諾貝爾獎得主成立以研究復(fù)雜性為主的圣菲研究所,提出超越還原論的口號,在科技界掀起了一場復(fù)雜性科學(xué)運動。雖然雷聲很大,但30年來并未取得預(yù)期的效果,其原因之一可能是當(dāng)時還沒有出現(xiàn)解決復(fù)雜性的技術(shù)。
集成電路、計算機(jī)與通信技術(shù)的發(fā)展大大增強了人類研究和處理復(fù)雜問題的能力。大數(shù)據(jù)技術(shù)將復(fù)雜性科學(xué)的新思想發(fā)揚光大,可能使復(fù)雜性科學(xué)得以落地。復(fù)雜性科學(xué)是大數(shù)據(jù)技術(shù)的科學(xué)基礎(chǔ),大數(shù)據(jù)方法可以看作復(fù)雜性科學(xué)的技術(shù)實現(xiàn)。大數(shù)據(jù)方法為還原論與整體論的辯證統(tǒng)一提供了技術(shù)實現(xiàn)途徑。大數(shù)據(jù)研究要從復(fù)雜性研究中吸取營養(yǎng),從事數(shù)據(jù)科學(xué)研究的學(xué)者不但要了解20世紀(jì)的“新三論”,可能還要學(xué)習(xí)與超循環(huán)、混沌、分形和元胞自動機(jī)等理論有關(guān)的知識,擴(kuò)大自己的視野,加深對大數(shù)據(jù)機(jī)理的理解。
大數(shù)據(jù)技術(shù)還不成熟,面對海量、異構(gòu)、動態(tài)變化的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理和分析技術(shù)難以應(yīng)對,現(xiàn)有的數(shù)據(jù)處理系統(tǒng)實現(xiàn)大數(shù)據(jù)應(yīng)用的效率較低,成本和能耗較大,而且難以擴(kuò)展。這些挑戰(zhàn)大多來自數(shù)據(jù)本身的復(fù)雜性、計算的復(fù)雜性和信息系統(tǒng)的復(fù)雜性。
1數(shù)據(jù)復(fù)雜性引起的挑戰(zhàn)
圖文檢索、主題發(fā)現(xiàn)、語義分析、情感分析等數(shù)據(jù)分析工作十分困難,其原因是大數(shù)據(jù)涉及復(fù)雜的類型、復(fù)雜的結(jié)構(gòu)和復(fù)雜的模式,數(shù)據(jù)本身具有很高的復(fù)雜性。目前,人們對大數(shù)據(jù)背后的物理意義缺乏理解,對數(shù)據(jù)之間的關(guān)聯(lián)規(guī)律認(rèn)識不足,對大數(shù)據(jù)的復(fù)雜性和計算復(fù)雜性的內(nèi)在聯(lián)系也缺乏深刻理解,領(lǐng)域知識的缺乏制約了人們對大數(shù)據(jù)模型的發(fā)現(xiàn)和高效計算方法的設(shè)計。形式化或定量化地描述大數(shù)據(jù)復(fù)雜性的本質(zhì)特征及度量指標(biāo),需要深入研究數(shù)據(jù)復(fù)雜性的內(nèi)在機(jī)理。人腦的復(fù)雜性主要體現(xiàn)在千萬億級的樹突和軸突的鏈接,大數(shù)據(jù)的復(fù)雜性主要也體現(xiàn)在數(shù)據(jù)之間的相互關(guān)聯(lián)。理解數(shù)據(jù)之間關(guān)聯(lián)的奧秘可能是揭示微觀到宏觀“涌現(xiàn)”規(guī)律的突破口。大數(shù)據(jù)復(fù)雜性規(guī)律的研究有助于理解大數(shù)據(jù)復(fù)雜模式的本質(zhì)特征和生成機(jī)理,從而簡化大數(shù)據(jù)的表征,獲取更好的知識抽象。為此,需要建立多模態(tài)關(guān)聯(lián)關(guān)系下的數(shù)據(jù)分布理論和模型,理清數(shù)據(jù)復(fù)雜度和計算復(fù)雜度之間的內(nèi)在聯(lián)系,奠定大數(shù)據(jù)計算的理論基礎(chǔ)。
2計算復(fù)雜性引起的挑戰(zhàn)
大數(shù)據(jù)計算不能像處理小樣本數(shù)據(jù)集那樣做全局?jǐn)?shù)據(jù)的統(tǒng)計分析和迭代計算,在分析大數(shù)據(jù)時,需要重新審視和研究它的可計算性、計算復(fù)雜性和求解算法。大數(shù)據(jù)樣本量巨大,內(nèi)在關(guān)聯(lián)密切而復(fù)雜,價值密度分布極不均衡,這些特征對建立大數(shù)據(jù)計算范式提出了挑戰(zhàn)。對于PB級的數(shù)據(jù),即使只有線性復(fù)雜性的計算也難以實現(xiàn),而且,由于數(shù)據(jù)分布的稀疏性,可能做了許多無效計算。
傳統(tǒng)的計算復(fù)雜度是指某個問題求解時需要的時間空間與問題規(guī)模的函數(shù)關(guān)系,所謂具有多項式復(fù)雜性的算法是指當(dāng)問題的規(guī)模增大時,計算時間和空間的增長速度在可容忍的范圍內(nèi)。傳統(tǒng)科學(xué)計算關(guān)注的重點是,針對給定規(guī)模的問題,如何“算得快”。而在大數(shù)據(jù)應(yīng)用中,尤其是流式計算中,往往對數(shù)據(jù)處理和分析的時間、空間有明確限制,比如網(wǎng)絡(luò)服務(wù)如果回應(yīng)時間超過幾秒甚至幾毫秒,就會丟失許多用戶。大數(shù)據(jù)應(yīng)用本質(zhì)上是在給定的時間、空間限制下,如何“算得多”。從“算得快”到“算得多”,考慮計算復(fù)雜性的思維邏輯有很大的轉(zhuǎn)變。所謂“算得多”并不是計算的數(shù)據(jù)量越大越好,需要探索從足夠多的數(shù)據(jù),到剛剛好的數(shù)據(jù),再到有價值的數(shù)據(jù)的按需約簡方法。
基于大數(shù)據(jù)求解困難問題的一條思路是放棄通用解,針對特殊的限制條件求具體問題的解。人類的認(rèn)知問題一般都是NP難問題,但只要數(shù)據(jù)充分多,在限制條件下可以找到十分滿意的解,近幾年自動駕駛汽車取得重大進(jìn)展就是很好的案例。為了降低計算量,需要研究基于自舉和采樣的局部計算和近似方法,提出不依賴于全量數(shù)據(jù)的新型算法理論,研究適應(yīng)大數(shù)據(jù)的非確定性算法等理論。
3系統(tǒng)復(fù)雜性引起的挑戰(zhàn)
大數(shù)據(jù)對計算機(jī)系統(tǒng)的運行效率和能耗提出了苛刻要求,大數(shù)據(jù)處理系統(tǒng)的效能評價與優(yōu)化問題具有挑戰(zhàn)性,不但要求理清大數(shù)據(jù)的計算復(fù)雜性與系統(tǒng)效率、能耗間的關(guān)系,還要綜合度量系統(tǒng)的吞吐率、并行處理能力、作業(yè)計算精度、作業(yè)單位能耗等多種效能因素。針對大數(shù)據(jù)的價值稀疏性和訪問弱局部性的特點,需要研究大數(shù)據(jù)的分布式存儲和處理架構(gòu)。
大數(shù)據(jù)應(yīng)用涉及幾乎所有的領(lǐng)域,大數(shù)據(jù)的優(yōu)勢是能在長尾應(yīng)用中發(fā)現(xiàn)稀疏而珍貴的價值,但一種優(yōu)化的計算機(jī)系統(tǒng)結(jié)構(gòu)很難適應(yīng)各種不同的需求,碎片化的應(yīng)用大大增加了信息系統(tǒng)的復(fù)雜性,像昆蟲種類一樣多(500多萬種)的大數(shù)據(jù)和物聯(lián)網(wǎng)應(yīng)用如何形成手機(jī)一樣的巨大市場,這就是所謂“昆蟲綱悖論”。為了化解計算機(jī)系統(tǒng)的復(fù)雜性,需要研究異構(gòu)計算系統(tǒng)和可塑計算技術(shù)。
大數(shù)據(jù)應(yīng)用中,計算機(jī)系統(tǒng)的負(fù)載發(fā)生了本質(zhì)性變化,計算機(jī)系統(tǒng)結(jié)構(gòu)需要革命性的重構(gòu)。信息系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),關(guān)注的重點不是數(shù)據(jù)加工,而是數(shù)據(jù)的搬運;系統(tǒng)結(jié)構(gòu)設(shè)計的出發(fā)點要從重視單任務(wù)的完成時間轉(zhuǎn)變到提高系統(tǒng)吞吐率和并行處理能力,并發(fā)執(zhí)行的規(guī)模要提高到10億級以上。構(gòu)建以數(shù)據(jù)為中心的計算系統(tǒng)的基本思路是從根本上消除不必要的數(shù)據(jù)流動,必要的數(shù)據(jù)搬運也應(yīng)由“大象搬木頭”轉(zhuǎn)變?yōu)椤拔浵伆岽竺住薄?/p>
發(fā)展大數(shù)據(jù)應(yīng)避免的誤區(qū)
1不要一味追求“數(shù)據(jù)規(guī)模大”
大數(shù)據(jù)主要難點不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣、要求及時回應(yīng)和原始數(shù)據(jù)真假難辨。現(xiàn)有數(shù)據(jù)庫軟件解決不了非結(jié)構(gòu)化數(shù)據(jù),要重視數(shù)據(jù)融合、數(shù)據(jù)格式的標(biāo)準(zhǔn)化和數(shù)據(jù)的互操作。采集的數(shù)據(jù)往往質(zhì)量不高是大數(shù)據(jù)的特點之一,但盡可能提高原始數(shù)據(jù)的質(zhì)量仍然值得重視。腦科學(xué)研究的最大問題就是采集的數(shù)據(jù)可信度差,基于可信度很差的數(shù)據(jù)難以分析出有價值的結(jié)果。
一味追求數(shù)據(jù)規(guī)模大不僅會造成浪費,而且效果未必很好。多個來源的小數(shù)據(jù)的集成融合可能挖掘出單一來源大數(shù)據(jù)得不到的大價值。應(yīng)多在數(shù)據(jù)的融合技術(shù)上下功夫,重視數(shù)據(jù)的開放與共享。所謂數(shù)據(jù)規(guī)模大與應(yīng)用領(lǐng)域有密切關(guān)系,有些領(lǐng)域幾個PB的數(shù)據(jù)未必算大,有些領(lǐng)域可能幾十TB已經(jīng)是很大的規(guī)模。
發(fā)展大數(shù)據(jù)不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發(fā)展道路,要像現(xiàn)在治理環(huán)境污染一樣,及早關(guān)注大數(shù)據(jù)可能帶來的“污染”和侵犯隱私等各種弊端。
2不要“技術(shù)驅(qū)動”,要“應(yīng)用為先”
新的信息技術(shù)層出不窮,信息領(lǐng)域不斷冒出新概念、新名詞,估計繼“大數(shù)據(jù)”以后,“認(rèn)知計算”、“可穿戴設(shè)備”、“機(jī)器人”等新技術(shù)又會進(jìn)入炒作高峰。我們習(xí)慣于跟隨國外的熱潮,往往不自覺地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動”的道路。實際上發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗一切技術(shù)的唯一標(biāo)準(zhǔn)是應(yīng)用。我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)一定要堅持“應(yīng)用為先”的發(fā)展戰(zhàn)略,堅持應(yīng)用牽引的技術(shù)路線。技術(shù)有限,應(yīng)用無限。各地發(fā)展云計算和大數(shù)據(jù),一定要通過政策和各種措施調(diào)動應(yīng)用部門和創(chuàng)新企業(yè)的積極性,通過跨界的組合創(chuàng)新開拓新的應(yīng)用,從應(yīng)用中找出路。
3不能拋棄“小數(shù)據(jù)”方法
流行的“大數(shù)據(jù)”定義是:無法通過目前主流軟件工具在合理時間內(nèi)采集、存儲、處理的數(shù)據(jù)集。這是用不能勝任的技術(shù)定義問題,可能導(dǎo)致認(rèn)識的誤區(qū)。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問題。我們應(yīng)重視實際碰到的問題,不管是大數(shù)據(jù)還是小數(shù)據(jù)。
統(tǒng)計學(xué)家們花了200多年,總結(jié)出認(rèn)知數(shù)據(jù)過程中的種種陷阱,這些陷阱不會隨著數(shù)據(jù)量的增大而自動填平。大數(shù)據(jù)中有大量的小數(shù)據(jù)問題,大數(shù)據(jù)采集同樣會犯小數(shù)據(jù)采集一樣的統(tǒng)計偏差。Google公司的流感預(yù)測這兩年失靈,就是由于搜索推薦等人為的干預(yù)造成統(tǒng)計誤差。
大數(shù)據(jù)界流行一種看法:大數(shù)據(jù)不需要分析因果關(guān)系、不需要采樣、不需要精確數(shù)據(jù)。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結(jié)合、白盒與黑盒研究相結(jié)合、大數(shù)據(jù)方法與小數(shù)據(jù)方法相結(jié)合。
4要高度關(guān)注構(gòu)建大數(shù)據(jù)平臺的成本
目前全國各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達(dá)2 PB以上的數(shù)據(jù)處理中心,許多城市公安部門要求存儲3個月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。數(shù)據(jù)挖掘的價值是用成本換來的,不能不計成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。什么數(shù)據(jù)需要保存,要保存多少時間,應(yīng)當(dāng)根據(jù)可能的價值和所需的成本來決定。大數(shù)據(jù)系統(tǒng)技術(shù)還在研究之中,美國的E級超級計算機(jī)系統(tǒng)要求能耗降低1000倍,計劃到2024年才能研制出來,用現(xiàn)在的技術(shù)構(gòu)建的巨型系統(tǒng)能耗極高。
我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。發(fā)展大數(shù)據(jù)與實現(xiàn)信息化的策略一樣:目標(biāo)要遠(yuǎn)大、起步要精準(zhǔn)、發(fā)展要快速。
-
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8908瀏覽量
137683
原文標(biāo)題:發(fā)展大數(shù)據(jù)不要一味追求數(shù)據(jù)規(guī)模大,要“應(yīng)用為先”
文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論