近日,2020年圖靈獎重磅出爐,頒給了哥倫比亞大學(xué)計算機科學(xué)名譽教授 Alfred Vaino Aho 和斯坦福大學(xué)計算機科學(xué)名譽教授 Jeffrey David Ullman。
Jeff Ullman 是數(shù)據(jù)科學(xué)領(lǐng)域的巨擘,他的研究興趣包括數(shù)據(jù)庫理論、數(shù)據(jù)庫集成、數(shù)據(jù)挖掘等。在去年撰寫的一篇評論文章中,他用淺顯的語言重新定義了,統(tǒng)計學(xué)、數(shù)據(jù)科學(xué)和機器學(xué)習(xí)之間的交叉點,并破除了其中的誤讀。他認為,盡管機器學(xué)習(xí)非常重要,但它遠非實現(xiàn)有效數(shù)據(jù)科學(xué)所需的唯一工具。
01Have we missed the boat again?
多年來,數(shù)據(jù)庫領(lǐng)域有一種言論認為,數(shù)據(jù)庫系統(tǒng)正在變得無關(guān)緊要。
大家似乎持一種絕望的心態(tài)。“have we missed the boat-again”這句話,在數(shù)據(jù)庫社區(qū)里似乎司空見慣[8]。
但我想論證,數(shù)據(jù)庫以及由數(shù)據(jù)庫研究而產(chǎn)生的技術(shù),對于“數(shù)據(jù)科學(xué)”仍然是必不可少的,特別是在解決科學(xué)、商業(yè)、醫(yī)學(xué)等應(yīng)用領(lǐng)域的重要問題上。
數(shù)據(jù)庫系統(tǒng)的核心,一直是如何盡最大可能處理最大的數(shù)據(jù)量,無論是以MB為單位的企業(yè)工資單數(shù)據(jù)、TB為單位的基因組信息,還是PB為單位的的衛(wèi)星輸出信息。
因此,數(shù)據(jù)庫的工作就是:研究一切相關(guān)數(shù)據(jù)。
為了論證這一觀點,我主要回答三個問題:
1. 統(tǒng)計真的是數(shù)據(jù)科學(xué)的重要組成部分嗎?
2. 機器學(xué)習(xí)就是數(shù)據(jù)科學(xué)的全部嗎?
3. 數(shù)據(jù)科學(xué)是否會對社會規(guī)范是否構(gòu)成威脅?
我對這三個問題的回答都是“no”。我將試著依次回答這三個問題。
02數(shù)據(jù)科學(xué) vs. 統(tǒng)計學(xué):誰是誰的子集?
幾年前,我受邀參加了國家研究委員會(NRC)一個叫做“數(shù)據(jù)-科學(xué)-教育圓桌會議”的小組(詳見 [16])。
這個圓桌不是由 NRC 的計算機科學(xué)部門組織的,而是由統(tǒng)計部門組織的。參與者中,統(tǒng)計學(xué)家和計算機科學(xué)家的數(shù)量差不多,加上其他學(xué)科的一些人。當(dāng)時的收獲主要是看統(tǒng)計學(xué)家如何思考這個數(shù)據(jù)的世界及其應(yīng)用。最明顯的一點是,統(tǒng)計學(xué)領(lǐng)域?qū)?shù)據(jù)科學(xué)視為自己的領(lǐng)域。
公平地講,首先讓我們明確一點,我非常尊重統(tǒng)計學(xué)家和他們所做的工作。統(tǒng)計學(xué)在現(xiàn)代數(shù)據(jù)研究中變得越來越重要,包括但不限于機器學(xué)習(xí)。許多統(tǒng)計學(xué)家開始像數(shù)據(jù)庫界或者更其他計算機科學(xué)界那樣,關(guān)注計算和數(shù)據(jù)分析。僅舉一個小例子,我最喜歡的技術(shù)之一是局部敏感哈希算法(LSH),這是一個直接來源于數(shù)據(jù)庫社區(qū)的想法。
然而,我在斯坦福大學(xué)統(tǒng)計部門的一位同事 Art Owen 向我展示了關(guān)鍵步驟——最小哈希(minhashing),這一步驟很大程度上加速了這個過程——這是我們幾年前就應(yīng)該能夠弄清楚的,但是沒有弄清楚。
然而,我在圓桌會議上的經(jīng)驗也讓我感覺到,統(tǒng)計界的一些人正在努力將統(tǒng)計定義為數(shù)據(jù)科學(xué)的核心組成部分。相比之下,我更傾向于把高效處理大規(guī)模數(shù)據(jù)的算法和技術(shù)視為數(shù)據(jù)科學(xué)的中心。人們普遍認為,數(shù)據(jù)科學(xué)是一門結(jié)合了多個領(lǐng)域知識的學(xué)科,我對此完全贊同。但這些領(lǐng)域究竟是什么,它們又是如何相互作用的呢?
這個問題如此重要,以至于不同社區(qū)紛紛發(fā)表維恩圖來證明他們自己在數(shù)據(jù)科學(xué)中的中心地位。最近有一篇文章[10]對這些圖表進行了總結(jié)和評論。其他維恩圖表示相關(guān)的所有觀點,請查詢維基百科數(shù)據(jù)科學(xué)維恩圖。
2.1康威圖表
由于 Drew Conway的緣故(德魯 · 康威,美國數(shù)據(jù)科學(xué)家,因其對數(shù)據(jù)科學(xué)的維恩圖定義以及將數(shù)據(jù)科學(xué)應(yīng)用于研究恐怖主義而聞名),統(tǒng)計學(xué)家們都習(xí)慣使用特定的圖表。這個圖表顯示了三個相互交叉的集合: “黑客技能”、“數(shù)學(xué)和統(tǒng)計學(xué)”和“實質(zhì)性專業(yè)知識”。在圓桌會議上,這個圖表被多次展示,來說明統(tǒng)計學(xué)的重要性,我還看到統(tǒng)計學(xué)家在其他幾個場合展示同樣的圖表,以解釋他們的領(lǐng)域?qū)?shù)據(jù)科學(xué)的重要性。我復(fù)制了圖1中的圖表,但是我添加了一些點評來解釋圖表中存在誤區(qū)之處。(如下圖)
圖1:數(shù)據(jù)科學(xué)的康威維恩圖
事實上,幾乎圖表中的每一個區(qū)域在某種程度上都有誤導(dǎo)性。
1、首先,一個小問題: 所謂的“實質(zhì)性專門知識”一般要統(tǒng)稱為”領(lǐng)域知識”或類似的東西。
2、最嚴(yán)重的問題是將計算機科學(xué)稱為“黑客技能”。計算機科學(xué)給數(shù)據(jù)科學(xué)帶來的遠不止是編寫代碼的能力。我們提供算法、模型和框架,來解決各種各樣的問題。所有這些在處理數(shù)據(jù)時都是必不可少的。
3、“傳統(tǒng)研究”在圖中顯示為數(shù)學(xué)/統(tǒng)計與應(yīng)用的交叉領(lǐng)域。換句話說,在這種形式的研究中,人們只考慮實際應(yīng)用,而不編寫任何代碼,因此不會影響現(xiàn)實世界。我不知道這是哪來的傳統(tǒng),但我認為,這可不是數(shù)據(jù)庫社區(qū)的傳統(tǒng)。
4、機器學(xué)習(xí)在這個圖表中有一個奇怪的位置。它被描述為“黑客”加上數(shù)學(xué)/統(tǒng)計。這意味著機器學(xué)習(xí)和實際應(yīng)用沒有任何關(guān)系。實際上,它與應(yīng)用之間有著千絲萬縷的聯(lián)系,這就是為什么今天機器學(xué)習(xí)的算法如此受重視,不僅在數(shù)據(jù)庫界,而且在整個計算機科學(xué)界都是如此。
5.然后還有 Conway 所說的“危險區(qū)域”——通過編寫代碼來解決應(yīng)用領(lǐng)域中的問題,而不需要統(tǒng)計學(xué)家的明智指導(dǎo)。幾乎所有的數(shù)據(jù)科學(xué)都是這樣的。舉一個例子,谷歌和其他郵件服務(wù)商在檢測網(wǎng)絡(luò)釣魚郵件方面做得很好。有多好?我們真的不知道,即使我們今天可以做一個統(tǒng)計分析,明天也不會奏效,因為這種威脅是不斷變化的。真正的危險是我們本來可以做得更好,卻放任那些騙子騙走可憐蟲們畢生的積蓄。
2.2我的維恩圖
我也提出了自己的維恩圖(圖2) ,我相信它能更好地描述這些領(lǐng)域之間的關(guān)系。有計算機科學(xué)和各個其他領(lǐng)域的科學(xué),數(shù)據(jù)科學(xué)就位于這些領(lǐng)域交叉的某些地方。機器學(xué)習(xí)是計算機科學(xué)的一個分支——是當(dāng)前一個非常重要的子領(lǐng)域。機器學(xué)習(xí)一部分可以用于數(shù)據(jù)科學(xué),也有很多其他和計算相關(guān)的用途。
這當(dāng)中很多應(yīng)用現(xiàn)在被認為是“人工智能”,比如無人駕駛汽車或入侵檢測。最后,我認為數(shù)學(xué)和統(tǒng)計學(xué)對于所有的計算機科學(xué)都是非常重要的工具,雖然我圖表中所畫的小氣泡并沒有充分展示出它們的重要性。這樣畫是為了強調(diào)它們并不真正直接影響領(lǐng)域科學(xué),而是通過在它們的幫助下開發(fā)出的軟件來產(chǎn)生影響。
圖2: 計算機科學(xué)、機器學(xué)習(xí)和統(tǒng)計學(xué)之間的關(guān)系(個人觀點)
2.3最大的區(qū)別: 數(shù)據(jù)庫和統(tǒng)計學(xué)價值體系
我所畫的圖中最有爭議的是,數(shù)學(xué)/統(tǒng)計學(xué)并不能直接解決領(lǐng)域的應(yīng)用。畢竟,康威圖所說的“傳統(tǒng)研究”就是這么做的。但是,盡管應(yīng)用程序和數(shù)學(xué)/統(tǒng)計學(xué)之間可能存在繞過計算以外的交互,但我認為這種交互很少會從應(yīng)用層面產(chǎn)生什么實際的好處。
為了說明這種區(qū)別,我們來看一下數(shù)據(jù)科學(xué)教育圓桌會議第四次會議的報告[14]。其中討論的一部分集中在美國統(tǒng)計協(xié)會舉辦的“黑客馬拉松”上,名為“Datafest”。從表面上看,這個活動就像我們通常看到的計算機科學(xué)專業(yè)學(xué)生參加的黑客馬拉松。競賽團隊將得到一個來自某個應(yīng)用領(lǐng)域的大數(shù)據(jù)集,但是在競賽評分方面有很大的不同。評分的焦點不在于是否解決了什么具體的問題,以及解決方案的質(zhì)量如何。
相反,大獎頒給了“最佳數(shù)據(jù)可視化、最佳外部數(shù)據(jù)使用和最佳洞察力”。換句話說,黑客馬拉松上獲獎是因為你做了一些統(tǒng)計學(xué)家感興趣的事情,而不是解決了別人的實際問題。我希望讀者能從另一個角度看問題,即目標(biāo)是服務(wù),而不是自娛自樂。面向計算機科學(xué)的 Kaggle 競賽[13]正是如此。
03莫把萬物歸為機器學(xué)習(xí)
現(xiàn)在,讓我們來看看機器學(xué)習(xí)的興起是如何影響數(shù)據(jù)的使用的。毫無疑問,機器學(xué)習(xí)已經(jīng)對我們利用數(shù)據(jù)解決問題的能力產(chǎn)生了巨大的影響。然而,我并不認為機器學(xué)習(xí)可以完全取代數(shù)據(jù)庫社區(qū)開發(fā)的算法。我希望讀者可以考慮三個問題:
1. 許多涉及“大數(shù)據(jù)”的問題其實并不是真正的機器學(xué)習(xí)問題;
2. 很多機器學(xué)習(xí)倡導(dǎo)者會把原本不屬于機器學(xué)習(xí)的方法歸類到其中;
3. 許多機器學(xué)習(xí)方法產(chǎn)生的神秘模型不可解釋或不可證明。
3.1 機器學(xué)習(xí)并非數(shù)據(jù)科學(xué)的全部
我認為,機器學(xué)習(xí)的一個公平的定義是利用數(shù)據(jù)創(chuàng)建某種模型的算法,并從中可以得到問題的答案。例如,可以使用機器學(xué)習(xí)建立垃圾郵件模型,將給定的電子郵件來喂養(yǎng)模型,從而判斷是或不是垃圾郵件。但并非所有有用的解決方案都可以用模型來表示。例如,我們在前面提到了局部敏感哈希數(shù)據(jù)庫(LSH) ,它是數(shù)據(jù)庫社區(qū)處理數(shù)據(jù)的一種重要技術(shù)。LSH 是一種用于在數(shù)據(jù)集中查找類似項的技術(shù),使用它就不必查看所有數(shù)據(jù)對了。在實際應(yīng)用中,LSH 是一個非常強大的工具,但是它不屬于機器學(xué)習(xí)模型。
3.2 機器學(xué)習(xí)倡導(dǎo)者有時把原本不屬于機器學(xué)習(xí)的方法歸入其中
比如說,聚類,它被定義為機器學(xué)習(xí)的一個分支,盡管早在機器學(xué)習(xí)出現(xiàn)之前,聚類就已經(jīng)被研究過了。梯度下降法是另一個早于機器學(xué)習(xí)的例子,然而不知何故被普遍認為是一個機器學(xué)習(xí)的分支。另一個重要的例子是關(guān)聯(lián)規(guī)則(一種常用的無監(jiān)督學(xué)習(xí)算法)。關(guān)聯(lián)規(guī)則于1993-1994年由拉凱什 · 阿格拉瓦爾和朋友首創(chuàng),比幾乎所有的機器學(xué)習(xí)概念都要早。我甚至記得曾經(jīng)和一位機器學(xué)習(xí)的倡導(dǎo)者談起,他提出 LSH“一定是機器學(xué)習(xí),因為它真的是一個很好的方法。”但事實上,LSH 就是一個與機器學(xué)習(xí)毫無關(guān)系的大數(shù)據(jù)算法。
3.3 解釋能力
通常,機器學(xué)習(xí)算法會得出正確的結(jié)論,而這些結(jié)論只有通過所展示的模型才能夠解釋。而這種模型往往是如此復(fù)雜,以至于對于普通用戶來說毫無意義。更重要的是,這個模型,即便能夠給出正確的診斷,但可能它的推理隱藏在處理一張百萬像素的圖像中。另一方面,有時候,我們有權(quán)要求解釋。例如,如果你的保險公司提高了你的保險費率,原因是一些預(yù)測汽車事故的模型顯示你的事故發(fā)生率提高了,至少你得知道為什么會這樣。
但是,非機器學(xué)習(xí)方法通常比機器學(xué)習(xí)模型更可解釋。為了看出區(qū)別,以通過關(guān)聯(lián)規(guī)則識別垃圾郵件為例。產(chǎn)生一組“規(guī)則”,在這種情況下可以是一組單詞,它們在電子郵件中的出現(xiàn)表明它是垃圾郵件。
您可能認為這些規(guī)則就是垃圾郵件的模型,這也就是為什么機器學(xué)習(xí)倡導(dǎo)者認為關(guān)聯(lián)規(guī)則屬于機器學(xué)習(xí)。但實際上,用于尋找關(guān)聯(lián)規(guī)則的算法并沒有從數(shù)據(jù)中“學(xué)習(xí)”到一個模型。
他們只是簡單地計算包含某些單詞的垃圾郵件的數(shù)量,如果這個數(shù)量足夠高,他們就宣布一條規(guī)則,即包含這些單詞的郵件是垃圾郵件。假如一個規(guī)則說,包含{ Nigerian,prince }單詞的電子郵件是垃圾郵件。
相比之下,即使是最簡單的機器學(xué)習(xí)技術(shù),比如學(xué)習(xí)每個可能的單詞的(正負)權(quán)重,以及在權(quán)重總和超過閾值時聲明是垃圾郵件,也比基于關(guān)聯(lián)規(guī)則的解決方案更準(zhǔn)確。
但問題是關(guān)聯(lián)規(guī)則方法是可解釋的,而機器學(xué)習(xí)模型則不能。如果我真的是一個尼日利亞王子,我所有的電子郵件都被關(guān)聯(lián)規(guī)則方法判定為垃圾郵件,那么至少我可以理解其中的原因。而另一方面,如果你問 gmail 為什么它判斷某些東西是垃圾郵件,它通常的回答類似于“它看起來像其他垃圾郵件。”也就是說,gmail在使用的模型告訴你它是垃圾郵件,其余的無可奉告。
04我們不要責(zé)怪?jǐn)?shù)據(jù)
我們經(jīng)常會把社會的弊病歸咎于數(shù)據(jù)。錯誤主要來源于:
1. 人們有意或無意地錯誤使用數(shù)據(jù),或
2. 數(shù)據(jù)忠實地反映了現(xiàn)實問題。
4.1 數(shù)據(jù)濫用
在數(shù)據(jù)-科學(xué)-教育圓桌會議上,在第五次會議上有一個關(guān)于數(shù)據(jù)倫理的討論[15]。舉例說明,一個城市希望在犯罪高發(fā)的地區(qū)部署警力。警察們手握逮捕發(fā)生地的數(shù)據(jù),結(jié)果是他們在那些地區(qū)確實逮捕了更多的人。但是,逮捕行動并不僅僅反映犯罪的發(fā)生,也反映了警察到場進行逮捕行動本身。數(shù)據(jù)造成了誤區(qū)。就是說,歷史原因,警察優(yōu)先被派往某些地區(qū),數(shù)據(jù)真實地反映出,在那些地區(qū)有更多的人被捕。也許本質(zhì)上只是因為,在警力不足的地方,逮捕率較低。
數(shù)據(jù)可能使偏見永久化的另一個常見例子,一家公司在決定晉升時總是歧視婦女。他們希望利用機器學(xué)習(xí)建立一個AI系統(tǒng),來處理簡歷,并識別那些與他們成功晉升員工相似的特征。
但數(shù)據(jù)顯示,女性候選人往往不會成功,機器學(xué)習(xí)算法便從數(shù)據(jù)中學(xué)習(xí),從而拒絕女性的申請。這些數(shù)據(jù)再次延續(xù)了現(xiàn)有的偏見。但是這些數(shù)據(jù)并沒有產(chǎn)生偏見,而是人產(chǎn)生了偏見。
4.2 數(shù)據(jù)反映了一個我們不喜歡的世界
有一種對數(shù)據(jù)使用的指責(zé)是,由數(shù)據(jù)產(chǎn)生的系統(tǒng)反映了說話者所反對的社會的某些東西。這種誤讀的一個明顯例子涉及 Word2Vec [13] ,這是谷歌幾年前開發(fā)的一個系統(tǒng)(后來被BERT所取代) ,該系統(tǒng)將單詞嵌入到高維向量空間中,從而使具有相似意義的單詞具有相近的向量。直觀的想法是看看通常圍繞在單詞 w 周圍的單詞。那么 w 的向量就是與其周圍關(guān)聯(lián)單詞的方向的加權(quán)組合。例如,我們預(yù)期「可口可樂」和「百事可樂」有相似的向量,因為人們談?wù)撍鼈兊姆绞酱笾孪嗤?/p>
當(dāng)觀察到某些向量方程的規(guī)律時,問題就出現(xiàn)了,例如作為向量,
London ? England + France = Paris
也就是說,倫敦和巴黎,作為各自國家的首都和最大的城市,周圍有許多反映這種地位的詞匯。我們預(yù)期倫敦周圍會有更多與英格蘭有關(guān)的詞匯,所以把它們拿走,代之以與法國有關(guān)的詞匯。
這個觀察結(jié)果無關(guān)緊要,但是其他方程式引起了一些嚴(yán)重的爭議,例如,
doctor ? man + woman = nurse
這個方程式,它是在要求“給我找一個像醫(yī)生一樣的職業(yè)詞匯,但要更傾向于女性。”。大約50% 的醫(yī)生是女性,但接近90% 的護士是女性。我們希望醫(yī)生和護士這兩個詞是相似的,但是后者更多地出現(xiàn)在「她」這樣的詞附近。所以這個等式是有一定道理的。
這些負面例子真正反映的是,在這個社會中,女性更有可能和護理崗位聯(lián)系到一起。我同意,很可能在不遠的將來,情況會變化。但我的觀點是: 不要責(zé)怪?jǐn)?shù)據(jù)。像 Word2Vec 或者 BERT 這樣的系統(tǒng),當(dāng)在一個像維基百科這樣的大型語料庫上訓(xùn)練時,將會反映出廣大公眾使用的語言,而這種數(shù)據(jù)的使用又會反映出人們普遍認為是真實的東西,不管我們是否喜歡這個真實。
The Last Word
我希望讀者可以吸收到以下想法:
?數(shù)據(jù)及其管理仍然是數(shù)據(jù)科學(xué)的本質(zhì)。
?盡管機器學(xué)習(xí)非常重要,但它遠非實現(xiàn)有效數(shù)據(jù)科學(xué)所需的唯一工具或想法。
?盡管數(shù)據(jù)有誤用的情況,但如果數(shù)據(jù)反映的是世界的本來面目,而不是我們希望的那樣,我們就不應(yīng)該責(zé)怪?jǐn)?shù)據(jù)本身。
原文鏈接為:http://sites.computer.org/debull/A20june/p8.pdf
編輯:jq
-
人工智能
+關(guān)注
關(guān)注
1794文章
47642瀏覽量
239688 -
數(shù)據(jù)庫系統(tǒng)
+關(guān)注
關(guān)注
0文章
31瀏覽量
9610 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132936
原文標(biāo)題:圖靈獎得主Jeff Ullman直言:機器學(xué)習(xí)不是數(shù)據(jù)科學(xué)的全部!統(tǒng)計學(xué)也不是
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論