還記得《鋼鐵俠》中托尼·斯塔克常用的炫酷無(wú)比的全息黑科技嗎?現(xiàn)在,MIT和布朗大學(xué)聯(lián)合開(kāi)發(fā)了一套觸屏式交互數(shù)據(jù)分析和預(yù)測(cè)系統(tǒng),可能讓用戶(hù)找到一點(diǎn)電影中的感覺(jué)。整個(gè)系統(tǒng)就像一塊無(wú)限大的“交互式畫(huà)布”,僅需幾秒就能生成預(yù)測(cè)結(jié)果。
在電影《鋼鐵俠》中,托尼·斯塔克使用全息計(jì)算機(jī)將3D數(shù)據(jù)投射到空氣中,用雙手操縱,并從中找到解決超級(jí)英雄麻煩的辦法。現(xiàn)在,麻省理工學(xué)院和布朗大學(xué)的研究人員也開(kāi)發(fā)了出一套在觸摸屏上運(yùn)行的交互式數(shù)據(jù)分析系統(tǒng),讓每個(gè)人都能解決現(xiàn)實(shí)問(wèn)題。
這套交互式數(shù)據(jù)科學(xué)系統(tǒng)名為Northstar,在云中運(yùn)行,但系統(tǒng)界面支持任何觸摸屏設(shè)備,包括智能手機(jī)和大型交互式平板。用戶(hù)提供系統(tǒng)數(shù)據(jù)集,并使用手指或數(shù)字筆在用戶(hù)友好的界面上操作,組合和提取功能。
在ACM SIGMOD 2019上發(fā)表的該項(xiàng)目的研究論文中,研究人員詳細(xì)介紹了Northstar的一個(gè)新組件,有“虛擬數(shù)據(jù)科學(xué)家”之稱(chēng)的VDS,它可以立即生成機(jī)器學(xué)習(xí)模型,在數(shù)據(jù)集上運(yùn)行預(yù)測(cè)任務(wù)。比如,醫(yī)生可以使用該系統(tǒng)來(lái)預(yù)測(cè)哪些患者更容易患某些疾病,企業(yè)主可以用它來(lái)預(yù)測(cè)銷(xiāo)售情況。每個(gè)團(tuán)隊(duì)成員都可以利用交互式設(shè)備實(shí)現(xiàn)實(shí)時(shí)的協(xié)作。
論文鏈接:
https://dl.acm.org/citation.cfm?id=3319863
研究人員稱(chēng),Northstar的目的是通過(guò)快速準(zhǔn)確地進(jìn)行復(fù)雜分析,推進(jìn)數(shù)據(jù)科學(xué)的普及。
“即使是不了解數(shù)據(jù)科學(xué)的咖啡店老板,也應(yīng)該能夠在未來(lái)幾周內(nèi)預(yù)測(cè)銷(xiāo)售情況,確定要進(jìn)多少貨。”論文共同作者之一、長(zhǎng)期擔(dān)任Northstar的項(xiàng)目負(fù)責(zé)人的蒂姆·克拉斯卡說(shuō)。他還擔(dān)任麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)電氣工程與計(jì)算機(jī)科學(xué)副教授,新數(shù)據(jù)系統(tǒng)與AI實(shí)驗(yàn)室(DSAIL)的創(chuàng)始聯(lián)合主任。“在擁有數(shù)據(jù)科學(xué)家的公司中,數(shù)據(jù)科學(xué)家和非專(zhuān)業(yè)人士之間有很多交流,我們可以將他們都聚到一個(gè)地方來(lái)。”
VDS基于自動(dòng)機(jī)器學(xué)習(xí)(AutoML)技術(shù)開(kāi)發(fā),該技術(shù)讓數(shù)據(jù)科學(xué)基礎(chǔ)不高的人也能夠訓(xùn)練AI模型,根據(jù)自己的數(shù)據(jù)集進(jìn)行預(yù)測(cè)。目前,該工具在DARPA舉辦的D3M AutoML競(jìng)賽中處于領(lǐng)先地位,這項(xiàng)賽事每六個(gè)月舉辦一次,決出性能最高的AutoML工具。
此論文作者還包括:第一作者、MIT研究生Zeyuan Shang,以及EmanS,CSAIL和DSAIL項(xiàng)目的博士后Emanuel Zgraggen。布朗大學(xué)的Benedetto Buratti,Yeounoh Chung,Philipp Eichmann和Eli Upfal,以及最近從布朗大學(xué)調(diào)任德國(guó)達(dá)姆施塔特技術(shù)大學(xué)的Carsten Binnig。
"一塊無(wú)限大的交互式畫(huà)布”
這項(xiàng)新研究是麻省理工學(xué)院和布朗大學(xué)在Northstar項(xiàng)目上多年合作的成果。過(guò)去四年多以來(lái),研究人員發(fā)表了大量詳細(xì)介紹Northstar各個(gè)組成部分的論文,包括交互式界面,多平臺(tái)操作、加速結(jié)果以及用戶(hù)行為研究。
Northstar的初始界面是一塊空白屏幕。用戶(hù)將數(shù)據(jù)集上傳到系統(tǒng)中,該數(shù)據(jù)集顯示在左側(cè)的“數(shù)據(jù)集”框中。任何數(shù)據(jù)標(biāo)簽都會(huì)自動(dòng)填入下面的獨(dú)立“屬性”框。還有一個(gè)“運(yùn)算符”框,其中包含各種算法和新的AutoML工具。所有數(shù)據(jù)都在云中存儲(chǔ)和分析。
“這就像一塊無(wú)限大的畫(huà)布,你可以在這里展示想要的一切。“ Northstar互動(dòng)界面的主要開(kāi)發(fā)人員Zgraggen說(shuō)。“然后可以將所有內(nèi)容鏈接在一起,創(chuàng)建更復(fù)雜的數(shù)據(jù)問(wèn)題。”
史上最快AutoML工具:生成近似結(jié)果只需幾秒
使用VDS,用戶(hù)現(xiàn)在還可以通過(guò)使模型適合其任務(wù)(例如數(shù)據(jù)預(yù)測(cè),圖像分類(lèi)或分析復(fù)雜圖形結(jié)構(gòu))來(lái)對(duì)該數(shù)據(jù)運(yùn)行預(yù)測(cè)分析。
比如,醫(yī)學(xué)研究人員希望根據(jù)數(shù)據(jù)集中的所有特征預(yù)測(cè)哪些患者可能患有血液病。他們可以從算法列表中拖出“AutoML”。首先會(huì)生成一個(gè)空白框,會(huì)帶出有一個(gè)“目標(biāo)”標(biāo)簽,在這個(gè)標(biāo)簽下,再拖出“血液”特征。系統(tǒng)將自動(dòng)找到性能最佳的機(jī)器學(xué)習(xí)流程,不斷更新預(yù)測(cè)精度,并以百分?jǐn)?shù)顯示在屏幕上。用戶(hù)可以隨時(shí)停止這個(gè)過(guò)程,進(jìn)行優(yōu)化搜索,并檢查每個(gè)模型的錯(cuò)誤率、結(jié)構(gòu)、計(jì)算和其他事項(xiàng)。
研究人員表示,VDS是迄今為止速度最快的交互式AutoML工具,部分原因是他們的定制化“估計(jì)引擎”的作用。該引擎作用于用戶(hù)交互界面和云存儲(chǔ)之間,能夠自動(dòng)創(chuàng)建數(shù)據(jù)集的幾個(gè)有代表性的樣本,以便逐步處理,在幾秒鐘內(nèi)就能生成高質(zhì)量的結(jié)果。
“我們花了兩年時(shí)間設(shè)計(jì)VDS,模仿數(shù)據(jù)科學(xué)家是怎么想的,”論文第一作者Zeyuan Shang說(shuō),也就是說(shuō)針對(duì)某項(xiàng)特定任務(wù),VDS可以立即基于一系列編碼規(guī)則,判斷出應(yīng)該/不該使用哪些模型,實(shí)施哪些預(yù)處理步驟。它首先從那些可能的機(jī)器學(xué)習(xí)流程的大量列表中進(jìn)行選擇,并在樣本集上運(yùn)行模擬。同時(shí)記住結(jié)果并改進(jìn)選擇方案。在迅速提供一個(gè)近似結(jié)果后,系統(tǒng)會(huì)在后端對(duì)結(jié)果進(jìn)行細(xì)化,但最終結(jié)果通常與第一次近似結(jié)果非常接近。
“用戶(hù)使用預(yù)測(cè)器,肯定不希望等四個(gè)小時(shí)才獲得第一個(gè)結(jié)果。他們希望已經(jīng)看到預(yù)測(cè)的過(guò)程,如果發(fā)現(xiàn)錯(cuò)誤,可以立即糾正。這在任何其他系統(tǒng)中通常是不可能實(shí)現(xiàn)的。“Kraska說(shuō)。
研究人員在300個(gè)真實(shí)數(shù)據(jù)集上對(duì)VDS工具進(jìn)行了評(píng)估。與其他最先進(jìn)的AutoML系統(tǒng)相比,VDS給出的預(yù)測(cè)近似結(jié)果精度相當(dāng),但用時(shí)僅幾秒鐘,比其他工具(幾分鐘到幾小時(shí))快得多。
未來(lái),研究人員還準(zhǔn)備為該工具添加一項(xiàng)新功能,提醒用戶(hù)潛在的數(shù)據(jù)偏差或錯(cuò)誤。比如,為了保護(hù)患者隱私,研究人員有時(shí)會(huì)在醫(yī)療數(shù)據(jù)集中將患者的年齡標(biāo)記為0歲(表示年齡未知)或200歲(表示患者年齡超過(guò)95歲)。新手可能無(wú)法識(shí)別這樣的“錯(cuò)誤”標(biāo)記,這種標(biāo)記可能會(huì)對(duì)分析造成很大干擾。
“對(duì)于新用戶(hù)來(lái)說(shuō),你可能會(huì)覺(jué)得獲得的結(jié)果已經(jīng)很棒了,”Kraska說(shuō)。“但我們希望可以提醒用戶(hù),實(shí)際上數(shù)據(jù)集中可能存在一些異常值,表明存在某些問(wèn)題。”
-
人工智能
+關(guān)注
關(guān)注
1796文章
47642瀏覽量
239791 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1460瀏覽量
34126 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24794
原文標(biāo)題:MIT推出最快AutoML交互預(yù)測(cè)工具,秒速觸屏再現(xiàn)《鋼鐵俠》黑科技
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論