01
什么是數(shù)據(jù)
數(shù)據(jù)是什么?這幾乎成為一個(gè)我們熟視無(wú)睹的問(wèn)題。
有不少朋友腦子里可能會(huì)直接冒出一個(gè)詞“數(shù)字”——“數(shù)字就是數(shù)據(jù)”,我相信會(huì)有一些朋友會(huì)斬釘截鐵地這么告訴我。
一些朋友會(huì)在稍作思考后回答“數(shù)字和字符、字母,這些都是數(shù)據(jù)”。
不知道你現(xiàn)在是不是正在糾結(jié)哪個(gè)回答更正確,亦或第二個(gè)回答更合理一些,我們先放一放。先看下面這組例子:
這里有6個(gè)0,請(qǐng)問(wèn)它是數(shù)據(jù)嗎?
我們?cè)倏催@樣的例子:
這里有4個(gè)1和2個(gè)a,那么它是數(shù)據(jù)嗎?
也許你可能會(huì)搖搖頭,“這到底是啥意思?”不錯(cuò),這也就是我們?cè)谡J(rèn)識(shí)數(shù)據(jù)的過(guò)程中存在的一個(gè)很要命的問(wèn)題,幾乎在我們出發(fā)時(shí)就攔住了我們的去路。
我們回過(guò)頭再想想剛才的問(wèn)題可能會(huì)得到比較令自己和他人信服的回答“承載了信息的東西”才是數(shù)據(jù),換句話說(shuō),不管是石頭上刻的畫(huà),或者小孩子在沙灘上歪歪扭扭寫(xiě)出的字跡,或者是嬉皮士們?cè)趬ι系耐盔f,只要它表達(dá)一些確實(shí)的含義,那么這種符號(hào)就可以被認(rèn)為是數(shù)據(jù)。而沒(méi)有承載信息的符號(hào),就不是數(shù)據(jù)。這個(gè)觀點(diǎn)似乎看上去要比我們前面的回答理性得多,也科學(xué)得多,但是這個(gè)觀點(diǎn)真的不需要補(bǔ)充了嗎?
我們假設(shè)這兩個(gè)例子都有一些比較特殊的場(chǎng)景,假設(shè)第一組里出現(xiàn)的6個(gè)0其實(shí)是時(shí)分秒的簡(jiǎn)寫(xiě),000000表示00點(diǎn)00分00秒,而如果寫(xiě)作112349則表示11點(diǎn)23分49秒的含義,那么它是不是也是數(shù)據(jù)呢?假設(shè)第二組出現(xiàn)的5個(gè)1和2個(gè)a其實(shí)是一組密碼,5個(gè)1代表一個(gè)被約定的地點(diǎn),aa代表一種被約定的事件,那這組數(shù)字字母的意義也有了相應(yīng)的解讀,那么它是不是也是數(shù)據(jù)呢?
不難看出,一些符號(hào)如果想要被認(rèn)定為數(shù)據(jù),那就必須承載一定的信息。而信息很可能是因場(chǎng)景而定,因解讀者的認(rèn)知而定,所以一些符號(hào)是不是可以被當(dāng)做數(shù)據(jù),有相當(dāng)?shù)囊蛩厥侨Q于解讀者的主觀視角的。不知道這個(gè)觀點(diǎn)你是不是認(rèn)可,總之這點(diǎn)很重要。
02
什么是信息
說(shuō)到這里,我的同事娟娟非常認(rèn)真且煞有介事地跟我說(shuō):“我覺(jué)得數(shù)字、字母、圖像,這些都是數(shù)據(jù),跟信息不信息的沒(méi)啥關(guān)系。”看著她認(rèn)真地跟我抬杠,我覺(jué)得蠻好,至少在認(rèn)識(shí)數(shù)據(jù)過(guò)程中積極思考只有好處。
信息一詞,在沒(méi)有學(xué)術(shù)背景的情況下其實(shí)有著很多解釋,例如,廣播中的聲音、互聯(lián)網(wǎng)上的消息、通訊系統(tǒng)中傳輸和處理的語(yǔ)音對(duì)象、甚至是小區(qū)和校園的消息看板,也就是人類社會(huì)傳播的一切內(nèi)容。1948年,數(shù)學(xué)家香農(nóng)(Claude Elwood Shannon)在題為《通訊的數(shù)學(xué)理論》的論文中指出:“信息是用來(lái)消除隨機(jī)不定性的東西”。這句話如果要我們來(lái)舉個(gè)例子說(shuō)明的話,大概可以想象這樣一個(gè)場(chǎng)景。
我說(shuō)了兩句話:“我今年33歲。”“我明年34歲。”
那么第一句話如果是為了對(duì)不了解我的人介紹我的年齡的話而可以算作信息的話,第二句話則不是信息。至少你會(huì)覺(jué)得說(shuō)了第一句以后,后面這句簡(jiǎn)直就是廢話,因?yàn)檫@個(gè)從第一句話完全可以推導(dǎo)出來(lái)。
再比如,某一天巴西足球隊(duì)和中國(guó)足球隊(duì)進(jìn)行了比賽。
結(jié)果第二天張三告訴我,“昨天巴西隊(duì)贏了。”
而后李四告訴我,“昨天中國(guó)隊(duì)輸了。”
再而后王五告訴我,“昨天的比賽不是平局。”
前提是只要他們都是說(shuō)實(shí)話的人,那么對(duì)于我來(lái)說(shuō),也就只有張三告訴我的能算信息,李四和王五說(shuō)的則不能算做信息。甚至連張三說(shuō)的“昨天巴西隊(duì)贏了”這句話是否能夠被算作信息,我們都要表示懷疑,因?yàn)檫@也有點(diǎn)“廢話”的意味——但凡對(duì)足球運(yùn)動(dòng)有點(diǎn)認(rèn)識(shí)的人這幾乎可以認(rèn)定,即便你不告訴我昨天巴西隊(duì)贏了,我也能猜個(gè)八九不離十,因?yàn)榭赡苄詫?shí)在是太大太大了,大到幾乎是一定的,幾乎是毋庸置疑的。國(guó)足的粉絲們請(qǐng)放下手中的臭雞蛋和爛西紅柿,聽(tīng)我把例子講完。
現(xiàn)在信息是什么清晰多了吧?我們可以粗忽地認(rèn)為,信息就是那些把我們不清楚的事情闡明的描述,而已經(jīng)明確或者知曉的東西讓我們?cè)佟爸獣浴币槐椋@些被知會(huì)的內(nèi)容就不再是信息了。這個(gè)概念是很有用的,我們后面在講信息論的時(shí)候也會(huì)再做定量的說(shuō)明,現(xiàn)在只做一個(gè)定性的了解。
數(shù)據(jù)和信息是我們?cè)跀?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域天天要打交道的基礎(chǔ),也是我們研究的主要對(duì)象。所以對(duì)數(shù)據(jù)和信息有個(gè)比較一致性的認(rèn)識(shí)對(duì)后面咱們討論問(wèn)題是非常有好處的。
03
什么是算法
算法這個(gè)名稱大家應(yīng)該通常不陌生,如果你是一個(gè)信息相關(guān)專業(yè)的本科學(xué)生,至少在本科一年級(jí)或者二年級(jí)就接觸過(guò)不少算法了。隨便打開(kāi)一個(gè)人力資源網(wǎng)站去搜搜看“算法工程師”,好的算法工程師的年薪也隨便就到三五十萬(wàn)甚至上百萬(wàn)的都有的。
算法是什么?算法可以被理解成為“計(jì)算的方法和技巧”,在計(jì)算機(jī)中的算法大多數(shù)指的就是一段或者幾段程序,告訴計(jì)算機(jī)用什么樣的邏輯和步驟來(lái)處理數(shù)據(jù)和計(jì)算,然后得到處理的結(jié)果。
科班出身的信息相關(guān)專業(yè)的朋友看到這里就會(huì)覺(jué)得比較親切了,經(jīng)典的算法有很多,比如“冒泡排序”算法,這幾乎是所有以高級(jí)語(yǔ)言為依托的《數(shù)據(jù)結(jié)構(gòu)》的入門必學(xué);再比如“八皇后問(wèn)題”算法,這幾乎也是我們?cè)谥v窮舉計(jì)算時(shí)的經(jīng)典保留算法案例(就是在國(guó)際象棋棋盤上放八個(gè)能夠橫豎斜無(wú)限制前進(jìn)的皇后,讓它們之間互相還不能攻擊,看有多少種解);還有不少我們聽(tīng)說(shuō)過(guò)的算法,比如MD5算法,ZIP2壓縮算法等各種不勝枚舉的算法。下圖就是八皇后問(wèn)題的一組解,我們經(jīng)過(guò)窮舉是可以求出所有92組解的。
應(yīng)該說(shuō)算法是數(shù)據(jù)加工的靈魂。如果說(shuō)數(shù)據(jù)和信息是原始的食材,數(shù)據(jù)分析的結(jié)論是菜肴,那么算法就是烹調(diào)過(guò)程;如果說(shuō)數(shù)據(jù)是玉璞,數(shù)據(jù)中蘊(yùn)含的知識(shí)是價(jià)值連城的美碧,那么算法就是玉石打磨和加工的機(jī)床和工藝流程。
算法在高級(jí)語(yǔ)言發(fā)展了很多年之后,更多的被封裝成了獨(dú)立的函數(shù)或者獨(dú)立的類,開(kāi)放接口供人調(diào)用,然而算法封裝地再好卻是不能用純粹不假思索地使用就能獲益的東西,要知道,這些封裝只是在一定程度上避免了我們重復(fù)發(fā)明輪子而已。
大家不要以為算法全都是算法工程師的事情,跟普通的程序員或者分析人員無(wú)關(guān),算法說(shuō)到底是對(duì)處理邏輯理解的問(wèn)題。
《孫子兵法·作戰(zhàn)篇》有云,“不盡知用兵之害者,則不能盡知用兵之利”,意思是說(shuō),不對(duì)用兵打仗的壞處與弊端進(jìn)行充分了解的話同樣不可能對(duì)用兵打仗的好處有足夠的認(rèn)識(shí)。算法的應(yīng)用是一個(gè)辯證的過(guò)程,不僅在于不同算法間的比較和搭配使用有著辯證關(guān)系,在同一個(gè)算法中,不同的參數(shù)和閾值設(shè)置同樣會(huì)帶來(lái)大相徑庭的結(jié)果,甚至影響數(shù)據(jù)解讀的科學(xué)性。這一點(diǎn)請(qǐng)大家務(wù)必有所注意。
04
統(tǒng)計(jì)、概率和數(shù)據(jù)挖掘
統(tǒng)計(jì)、概率、數(shù)據(jù)挖掘,這幾個(gè)詞經(jīng)常伴隨出現(xiàn),尤其是統(tǒng)計(jì)和概率兩個(gè)概念,幾乎就像自然界的伴生礦一樣分不了家,有很多出版社都出版過(guò)叫做《概率統(tǒng)計(jì)》的書(shū)籍。
我們這本書(shū)本身也不準(zhǔn)備從學(xué)術(shù)的角度給統(tǒng)計(jì)和概率做嚴(yán)格的區(qū)分,在平時(shí)工作中我們用的統(tǒng)計(jì)大多為計(jì)數(shù)功能,例如我們?cè)谑褂肊XCEL中也會(huì)用到COUNT、SUM、AVERAGE等這些統(tǒng)計(jì)函數(shù);如果是在軟件開(kāi)發(fā)的朋友在用SQL語(yǔ)言對(duì)數(shù)據(jù)庫(kù)的某些字段進(jìn)行計(jì)數(shù)(count)、求和(sum)、求平均(avg)等函數(shù)。而概率的應(yīng)用大多則是根據(jù)樣本的數(shù)量以及占比得到“可能性”和“分布比例”等描述數(shù)值。當(dāng)然,概率的用法遠(yuǎn)其實(shí)不止這些,在數(shù)據(jù)挖掘中同樣用到大量概率相關(guān)的算法。
數(shù)據(jù)挖掘這個(gè)詞很多時(shí)候是和機(jī)器學(xué)習(xí)一起出現(xiàn),現(xiàn)在網(wǎng)上眾人對(duì)這兩個(gè)詞的關(guān)系說(shuō)法也是莫衷一是。有的說(shuō)數(shù)據(jù)挖掘包含機(jī)器學(xué)習(xí),有的說(shuō)機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘發(fā)展的更高階段云云。在我看來(lái),數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)這樣的詞匯命名應(yīng)該是信息科學(xué)自然進(jìn)化和衍生出來(lái)的,帶有一定的約定俗成的色彩,人們的看法見(jiàn)仁見(jiàn)智也在情理之中。
我的觀點(diǎn)是這樣。
首先我認(rèn)為沒(méi)有必要一定要給兩個(gè)詞匯劃一個(gè)界限,或者一定要把他們做嚴(yán)格的概念區(qū)分,因?yàn)閰^(qū)分的標(biāo)準(zhǔn)到目前本就沒(méi)有科學(xué)而無(wú)爭(zhēng)議的界定,況且是不是能分清一個(gè)算法屬于數(shù)據(jù)挖掘的范疇還是機(jī)器學(xué)習(xí)的范疇對(duì)于算法本身使用是沒(méi)有任何影響的。這兩個(gè)詞大家如果想聽(tīng)解釋的話,不妨只從字面意思去理解就已經(jīng)足夠了。
數(shù)據(jù)挖掘——首先是有一定量的數(shù)據(jù)作為研究對(duì)象,挖掘——顧名思義,說(shuō)明有一些東西并不是放在表面上一眼就能看明白,要進(jìn)行深度的研究、對(duì)比、甄別等工作,最終從中找到規(guī)律或知識(shí),“挖掘”這個(gè)詞用的很形象。
機(jī)器學(xué)習(xí)——我們先想想人類學(xué)習(xí)的目的是什么?是掌握知識(shí),掌握能力,掌握技巧,最終能夠進(jìn)行比較復(fù)雜或者高要求的工作。那么類比一下機(jī)器,我們讓機(jī)器學(xué)習(xí),不管學(xué)習(xí)什么,最終目的都是讓它獨(dú)立或至少半獨(dú)立地進(jìn)行相對(duì)復(fù)雜或者高要求的工作。我們?cè)谶@里提到的機(jī)器學(xué)習(xí)更多是讓機(jī)器幫助人類做一些大規(guī)模的數(shù)據(jù)識(shí)別、分揀、規(guī)律總結(jié)等人類做起來(lái)比較花時(shí)間的事情。但是請(qǐng)注意,與數(shù)據(jù)挖掘一起出現(xiàn)的這個(gè)機(jī)器學(xué)習(xí)概念和我們說(shuō)的“人工智能”還是相差甚遠(yuǎn),因?yàn)檫@里面對(duì)“智能”的考究程度實(shí)在是太低了。
05
什么是商業(yè)智能
另一個(gè)和大數(shù)據(jù)一起經(jīng)常出現(xiàn)的詞匯是商業(yè)智能,也就是我們平時(shí)簡(jiǎn)稱的BI(Business Intelligence)。
商業(yè)智能——業(yè)界比較公認(rèn)的說(shuō)法是在1996年最早由加特納集團(tuán)(Gartner Group)提出的一個(gè)商業(yè)概念,通過(guò)應(yīng)用基于事實(shí)的支持系統(tǒng)來(lái)輔助商業(yè)決策的制定。商業(yè)智能技術(shù)提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息。如果這個(gè)書(shū)本式的概念讀起來(lái)還是比較費(fèi)解,那么就聽(tīng)一個(gè)形象的比喻。
公司在日常運(yùn)營(yíng)過(guò)程中是需要做很多決策的,無(wú)時(shí)無(wú)刻都存在于公司的各個(gè)方面,而決策最終不管是股東大會(huì)討論也好還是企業(yè)領(lǐng)導(dǎo)部門領(lǐng)導(dǎo)直接發(fā)布行政命令也好,最終可能是由于很多因素共同影響做出的結(jié)果,無(wú)論其來(lái)自主觀還是客觀。
這些決策可以如何得出呢?可以領(lǐng)導(dǎo)直接憑經(jīng)驗(yàn)決定;可以群策群力開(kāi)會(huì)決定;可以問(wèn)訊很多行業(yè)專家;甚至可以找個(gè)算卦先生來(lái)占卜……從概念來(lái)說(shuō)都是屬于輔助決策。而顯然,我們都期望不論最終是如何做出的這些決策和命令,它們都應(yīng)該是更為理性、科學(xué)、正確的。但是如何幫助他們做出更為理性、科學(xué)、正確的決策呢?商業(yè)智能整體也就是研究這樣一個(gè)課題,到目前為止,業(yè)界普遍比較認(rèn)可的方式就是基于大量的數(shù)據(jù)所做的規(guī)律性分析。因而,市面上成熟的商業(yè)智能軟件大多都是基于數(shù)據(jù)倉(cāng)庫(kù)做數(shù)據(jù)建模和分析,以及數(shù)據(jù)挖掘和報(bào)表的。
可以說(shuō),商業(yè)智能是一個(gè)具體的大的應(yīng)用領(lǐng)域,也是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)應(yīng)用的一個(gè)天然親密的場(chǎng)景。而且商業(yè)智能這個(gè)解決問(wèn)題的理念其實(shí)不僅僅可以應(yīng)用于商業(yè),還可以應(yīng)用于國(guó)防軍事、交通優(yōu)化、環(huán)境治理、輿情分析、氣象預(yù)測(cè)等等。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7128瀏覽量
89361 -
算法
+關(guān)注
關(guān)注
23文章
4627瀏覽量
93166 -
通訊系統(tǒng)
+關(guān)注
關(guān)注
0文章
70瀏覽量
12225
原文標(biāo)題:終于有人把數(shù)據(jù)、信息、算法、統(tǒng)計(jì)、概率和數(shù)據(jù)挖掘都講明白了!
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論