數(shù)據(jù)科學(xué)在過去十年里蓬勃發(fā)展,改變了我們的商業(yè)模式,同時對于新一代的年輕人來說,提供了一個未來的職業(yè)方向。但在數(shù)據(jù)科學(xué)快速發(fā)展的同時,人們對它的理解也在逐步演變,這導(dǎo)致了不同的人對于如何更好地從數(shù)據(jù)中獲取洞察有了不同的觀點。對于我來說,數(shù)據(jù)科學(xué)的發(fā)展重塑了我的職業(yè)生涯,接下來我想深入研究數(shù)據(jù)科學(xué)是什么、數(shù)據(jù)科學(xué)的研究工作是什么以及數(shù)據(jù)科學(xué)家是誰等問題。我查閱了大量的文獻,將數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)家的各種研究和分析關(guān)聯(lián)匯總到一起,從而試圖來回答了這些問題。我在一篇題為 “Passing the Data Baton: A Retrospective Analysis on Data Science Work and Workers” 的研究出版物中說明了以上結(jié)果。
這項研究的部分動機是作為未來研究和開發(fā)的基礎(chǔ),這樣我可能可以找到一個可視化分析工具還未滿足其需求的領(lǐng)域。而另一個動機是,我希望對十多年前我剛開始學(xué)習(xí)計算機科學(xué)時還不存在的這個領(lǐng)域進行自我反思和回顧。在這篇文章中,我總結(jié)了這篇研究論文的幾個關(guān)鍵收獲,并分享了這些發(fā)現(xiàn)將如何幫助我們創(chuàng)建數(shù)據(jù)科學(xué)領(lǐng)域的下一代數(shù)據(jù)可視化工具。
什么是數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)對不同的人來說是不一樣的。對某些人來說,數(shù)據(jù)科學(xué)并不是什么新鮮事,只是統(tǒng)計技術(shù)的實際應(yīng)用,并且已經(jīng)存在了很長一段時間。對其他人來說,數(shù)據(jù)科學(xué)不僅需要統(tǒng)計方法的知識,而且還需要計算技術(shù)使這些方法得到應(yīng)用。例如,一個數(shù)據(jù)科學(xué)家僅僅理解線性回歸是不夠的,他們還需要知道如何在大規(guī)模的數(shù)據(jù)中應(yīng)用線性回歸——這不是傳統(tǒng)統(tǒng)計學(xué)教育的一部分。盡管如此,即使是那些認(rèn)為數(shù)據(jù)科學(xué)不僅僅是應(yīng)用統(tǒng)計學(xué)的人,也可能并不認(rèn)為它是一件新事物。收集和分析數(shù)據(jù)的做法,長期以來一直是科學(xué)研究的一部分,例如生物學(xué)或物理學(xué);許多人認(rèn)為,數(shù)據(jù)科學(xué)只是經(jīng)驗科學(xué)中對已經(jīng)存在的研究的延伸。
但其實還有第三種觀點,即數(shù)據(jù)科學(xué)確實是一件新的事物,既不同于統(tǒng)計學(xué),也不同于科學(xué)家在研究原子和基因時使用的方法。數(shù)據(jù)科學(xué)將統(tǒng)計學(xué)、計算機科學(xué)以及其他必要的學(xué)科專業(yè)知識結(jié)合起來,帶來了數(shù)據(jù)科學(xué)所獨有的、由數(shù)據(jù)科學(xué)家所應(yīng)對的全新挑戰(zhàn)。此外,數(shù)據(jù)科學(xué)家開展的工作與其他類型的數(shù)據(jù)分析不同,它需要更廣泛的跨學(xué)科技能。我們和其他人的研究都認(rèn)為數(shù)據(jù)科學(xué)確實是一件全新的、不同的事物,基于這點,我們創(chuàng)建了一個關(guān)于數(shù)據(jù)科學(xué)的定義,作為我們工作的基礎(chǔ):
數(shù)據(jù)科學(xué)是一個跨學(xué)科領(lǐng)域,旨在通過統(tǒng)計和計算技術(shù)的結(jié)構(gòu)化應(yīng)用,從現(xiàn)實世界的數(shù)據(jù)中得到新的見解。 這一定義很重要,因為它幫助我們了解數(shù)據(jù)科學(xué)工作者面臨的挑戰(zhàn)和未滿足的需求,它們主要來自于處理真實數(shù)據(jù)的挑戰(zhàn)(而不是模擬數(shù)據(jù)),以及大規(guī)模應(yīng)用統(tǒng)計和計算方法的挑戰(zhàn)。
什么是數(shù)據(jù)科學(xué)工作?
重要的是,數(shù)據(jù)科學(xué)的有效定義縮小了研究范圍。我們并沒有包含人們可能希望進行研究的所有類型的數(shù)據(jù)分析,而是仔細(xì)研究那些數(shù)據(jù)科學(xué)家進行研究的分析類型。這種區(qū)別很重要,因為實驗物理學(xué)家分析數(shù)據(jù)所采取的具體步驟與數(shù)據(jù)科學(xué)家可能采取的分析步驟不同,盡管它們有共同點。這就引出了一個重要的后續(xù)問題:究竟什么是數(shù)據(jù)科學(xué)的研究工作? 有好幾個行業(yè)標(biāo)準(zhǔn)來分解數(shù)據(jù)科學(xué)的研究工作。第一種是 KDD(數(shù)據(jù)發(fā)現(xiàn)中的知識)方法,隨著時間的推移,其他人會對該方法進行修改和擴展。基于這些推論,以及采訪數(shù)據(jù)科學(xué)家,我們創(chuàng)建了一個框架,其中包括四個高階過程(準(zhǔn)備、分析、部署和通信)和 14 個低階過程。使用紅色筆劃輪廓,我們還強調(diào)了數(shù)據(jù)可視化在數(shù)據(jù)科學(xué)工作中已經(jīng)發(fā)揮突出作用的具體領(lǐng)域。在我們的研究文章中,我們提供了這些過程的詳細(xì)定義和示例。
誰是數(shù)據(jù)科學(xué)工作者?
我們在與數(shù)據(jù)科學(xué)家進行的 12 項深入研究中發(fā)現(xiàn)了 9 個數(shù)據(jù)科學(xué)角色。這些年來,我聽到了許多關(guān)于數(shù)據(jù)科學(xué)家的不同看法。我喜歡的一個例子是,數(shù)據(jù)科學(xué)家是“比統(tǒng)計學(xué)家更擅長軟件工程,比軟件工程師更擅長統(tǒng)計學(xué)” 的人。我最近聽到的一個直白的說法是,數(shù)據(jù)科學(xué)家是“西海岸的統(tǒng)計學(xué)家”。
然而,當(dāng)我們深入研究現(xiàn)有的數(shù)據(jù)科學(xué)家的研究時,我們沒想到發(fā)現(xiàn)了一個重要且一致的特征,即 “數(shù)據(jù)科學(xué)家” 的多樣性以及它們在特定數(shù)據(jù)科學(xué)過程中的作用如何變化。您可能已經(jīng)注意到數(shù)據(jù)工程師的崛起,例如,作為一個獨特但仍然相鄰的數(shù)據(jù)科學(xué)角色。隨著數(shù)據(jù)科學(xué)工作的復(fù)雜性的增加,數(shù)據(jù)科學(xué)家變得更專業(yè),往往從事數(shù)據(jù)科學(xué)研究工作的具體方面。Harris 等人的訪談早在 2012 年就已經(jīng)確定了這一趨勢,這種趨勢只是隨著時間的推移而加速。他們敏銳地發(fā)現(xiàn),數(shù)據(jù)科學(xué)角色之間的這種多樣性導(dǎo)致了 “數(shù)據(jù)科學(xué)家和尋求幫助的人之間的交流不暢”。
我們根據(jù) Harris 的研究結(jié)果,對 12 項研究進行了調(diào)查,共有數(shù)千名被認(rèn)定為數(shù)據(jù)科學(xué)家的個體。通過對這些研究的分析,我們能夠識別出 9 個不同的數(shù)據(jù)角色。這些人有不同的技能和背景,我們以統(tǒng)計、計算機科學(xué)和領(lǐng)域?qū)I(yè)知識為軸心來說明。我們還將以人為中心的設(shè)計納入了我們對數(shù)據(jù)科學(xué)技能的描述,因為考慮到數(shù)據(jù)產(chǎn)品的影響,就像面部識別應(yīng)用程序一樣,越來越重要。我們要強調(diào)的是,這些角色不是絕對的范疇,它們的邊界是不固定的,同時這些角色的技術(shù)技能也符合類似的規(guī)律。相反,提出這些角色類別的目的是提供一個指導(dǎo),從而幫助研究人員對于正在交談的人以及他們的背景有一個直觀的認(rèn)識。
這將如何改變我們創(chuàng)建可視化
和數(shù)據(jù)分析工具的方式?
當(dāng)然,最重要的是我們對數(shù)據(jù)科學(xué)的定義以及我們的數(shù)據(jù)科學(xué)工作框架和工作人員如何幫助我們構(gòu)建更好的數(shù)據(jù)可視化工具。首先也是最重要的一點是,它有助于提供一個清晰的標(biāo)準(zhǔn),從而明確了數(shù)據(jù)科學(xué)研究工作的多樣性和對應(yīng)的工作人員。我們已經(jīng)使用這個框架創(chuàng)建了更清晰的標(biāo)準(zhǔn)來分解數(shù)據(jù)科學(xué)中的 Tableau 客戶體驗。我們可以更精確地確定他們正試圖做什么,并可以就這些過程提出更深入的問題。
已知 “數(shù)據(jù)科學(xué)家” 這個角色本身包含了大量的多樣性,我們可以通過將與我們交談的個人歸類到九個數(shù)據(jù)科學(xué)的角色,從而更好地確定誰在執(zhí)行這項工作。這樣的分類使得我們更容易理解可視化系統(tǒng)需要支持的任務(wù)以及在什么級別上支持這些任務(wù)。例如,技術(shù)分析員和 ML/AI 工程師是我們描述的兩個數(shù)據(jù)科學(xué)角色,他們都可以參與模型構(gòu)建的共同任務(wù),但需求截然不同;如果我們忽略這些差異,我們就有可能為這兩個角色創(chuàng)建錯誤的工具。
但也許對我來說最重要的是,這個框架還幫助我思考當(dāng)前可視化分析工具生態(tài)系統(tǒng)中缺少的東西。我得出的一個令人擔(dān)憂的結(jié)論是,現(xiàn)有工具對可視化機器學(xué)習(xí)模型的關(guān)注范圍很窄,缺乏支持?jǐn)?shù)據(jù)科學(xué)研究工作的其他關(guān)鍵方面的工具,如數(shù)據(jù)準(zhǔn)備、部署或通信。這種工具的缺乏不僅增加了數(shù)據(jù)科學(xué)研究工作的開銷,還使得數(shù)據(jù)科學(xué)家無論擔(dān)任什么角色,都更難讓他們的工作影響到組織的決策和實踐。這項關(guān)于數(shù)據(jù)科學(xué)工作和工作者的研究幫助我面對以上挑戰(zhàn),同時為構(gòu)建更好的工具來幫助人們查看和理解他們的數(shù)據(jù)提供了機會。
原文標(biāo)題:數(shù)據(jù)科學(xué)的十年回顧與可視化工具的未來
文章出處:【微信公眾號:Tableau社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7134瀏覽量
89402 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132930
原文標(biāo)題:數(shù)據(jù)科學(xué)的十年回顧與可視化工具的未來
文章出處:【微信號:TableauChina,微信公眾號:Tableau社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論