上周,F(xiàn)acebook 宣布其打造了世界上最準(zhǔn)確的目標(biāo)識(shí)別系統(tǒng),該系統(tǒng)使用了 35 億張圖像(全來自于 Instagram )。在 AI 界有這么一句老話:越大越好。要訓(xùn)練最快的算法,必須使用最大的數(shù)據(jù)集和性能最強(qiáng)的處理器。這種傳統(tǒng)觀念幫助科技巨頭吸引了不少人才和投資,但是斯坦福大學(xué)最近組織的一項(xiàng) AI 競賽表明這種觀念并不一定正確。在人工智能領(lǐng)域,原來才智仍舊可以打敗性能。
證據(jù)來自于 DAWNBench 挑戰(zhàn)賽,去年 11 月斯坦福大學(xué)的研究員宣布正式啟動(dòng)這項(xiàng)比賽,上周他們宣布了比賽的獲勝者。我們可以將 DAWNBench 看作是 AI 工程師的田徑運(yùn)動(dòng)會(huì),不過比賽項(xiàng)目不是跨欄和跳遠(yuǎn),而是諸如目標(biāo)識(shí)別和閱讀理解這樣的任務(wù)。來自于大學(xué)、政府部門和業(yè)內(nèi)的團(tuán)隊(duì)和個(gè)人相互角逐,比賽項(xiàng)目為誰設(shè)計(jì)的算法最優(yōu)秀,斯坦福大學(xué)的研究員作為裁判。每個(gè)參賽的算法都必須滿足基本的準(zhǔn)確性標(biāo)準(zhǔn)(例如:在給定數(shù)據(jù)集中識(shí)別出 93% 的狗),評(píng)判標(biāo)準(zhǔn)包括訓(xùn)練算法的時(shí)間和訓(xùn)練成本。
斯坦福大學(xué)研究員 Matei Zaharia 和 Cody Coleman 解釋稱,這些評(píng)判標(biāo)準(zhǔn)可以反映 AI 領(lǐng)域的實(shí)際需求。Zaharia 告訴科技媒體《 The Verge 》,“如果你的團(tuán)隊(duì)較小,通過衡量成本,你就可以知道是否需要用 Google 級(jí)別的基礎(chǔ)設(shè)施來與別人競爭。通過測定訓(xùn)練速度,你就可以知道部署某一 AI 解決方案需要多長時(shí)間。也就是說,這些衡量標(biāo)準(zhǔn)可以幫助我們判斷小團(tuán)隊(duì)是否能與科技巨頭一較高下”。
比賽的結(jié)果并不能給出直接的答案,但是卻告訴我們:要在 AI 領(lǐng)域取得成功,計(jì)算能力并不是唯一要義,巧妙的算法設(shè)計(jì)至少一樣重要。雖然 Google 和 Intel 這樣的大型科技公司在很多任務(wù)中成績突出,但是小型團(tuán)隊(duì)(甚至個(gè)人)通過使用鮮為人知的獨(dú)特方法也可以名列前茅。
拿 DAWNBench 的目標(biāo)識(shí)別挑戰(zhàn)賽來說,這項(xiàng)比賽要求參賽團(tuán)隊(duì)訓(xùn)練出可以識(shí)別圖片數(shù)據(jù)集 CIFAR-10 中的目標(biāo)的算法。CIFAR-10 是一個(gè)相對(duì)較舊的數(shù)據(jù)集,但是它反映了企業(yè)在現(xiàn)實(shí)中可能要處理的各種數(shù)據(jù)。CIFAR-10 包含 6 萬張尺寸為 32×32 的小圖像,每張圖像都?xì)w類在一個(gè)類別下,例如“狗”、“青蛙”、“船”或“卡車”,共有 10 個(gè)類別。
▌“用基礎(chǔ)的資源實(shí)現(xiàn)世界級(jí)的結(jié)果”
在 DAWNBench 的榜單中,排名前三的獲勝者都是 Fast.AI 的研究員,他們的算法訓(xùn)練時(shí)間最短而且訓(xùn)練成本最低。Fast.AI 并不是大型研究實(shí)驗(yàn)室,而是一個(gè)創(chuàng)造學(xué)習(xí)資源的非盈利組織,致力于讓所有人都能學(xué)習(xí)深度學(xué)習(xí)。Fast.AI. 聯(lián)合創(chuàng)始人、企業(yè)家兼數(shù)據(jù)科學(xué)家 Jeremy Howard 表示,他的學(xué)生的成功靠的是創(chuàng)新思考,這表示任何人都能“用基礎(chǔ)的資源實(shí)現(xiàn)世界級(jí)的結(jié)果”。
Howard 解釋稱,為了設(shè)計(jì)出能解決 CIFAR 識(shí)別任務(wù)的算法,F(xiàn)ast.AI 團(tuán)隊(duì)選擇了一種相對(duì)不知名的訓(xùn)練方法——超收斂(super convergence)。創(chuàng)建這種方法的不是資金雄厚的科技公司,而是美國海軍研究實(shí)驗(yàn)室(Naval Research Laboratory)研究員 Leslie Smith。
超級(jí)收斂的基本原理是,緩慢增加用于訓(xùn)練算法的數(shù)據(jù)流。我們可以這么理解這種方法:如果你要教某人識(shí)別樹木,你不會(huì)一開始就給他們一片森林。開始的時(shí)候你會(huì)教他們每一種樹及其樹葉的模樣,慢慢地將信息灌輸給他們。這樣解釋有點(diǎn)過分簡化,但是 Fast.AI 使用超級(jí)收斂法訓(xùn)練的算法在訓(xùn)練速度上比競爭對(duì)手的算法快很多。Fast.AI 團(tuán)隊(duì)可以在三分鐘內(nèi)訓(xùn)練出一個(gè)能對(duì) CIFAR 數(shù)據(jù)集進(jìn)行分類的算法,而且準(zhǔn)確度滿足比賽要求。排名第二的團(tuán)隊(duì)沒有使用超級(jí)收斂法,他們的訓(xùn)練時(shí)間超過半小時(shí)。
不過,F(xiàn)ast.AI 沒有一路贏得所有比賽。在另一項(xiàng)挑戰(zhàn)賽中,參賽者需要利用目標(biāo)識(shí)別算法對(duì) ImageNet 數(shù)據(jù)集進(jìn)行分類,結(jié)果 Google 大獲全勝,包攬了訓(xùn)練時(shí)間最短的前三名和訓(xùn)練成本最低的第一名和第二名( Fsat.AI 獲得了成本最低的第三名和訓(xùn)練時(shí)間最短的第四名)。但是,Google 的算法都在自家定制的 AI 硬件上運(yùn)行,芯片也是針對(duì)任務(wù)特別設(shè)計(jì)的,即張量處理器(TPU)。事實(shí)上,Google 在一些任務(wù)中使用的處理器是其自稱的 TPU“pod”——串聯(lián)運(yùn)行的 64 枚 TPU 芯片。相比之下,F(xiàn)ast.AI 參賽團(tuán)隊(duì)使用的是普通電腦上用的英偉達(dá) GPU,所有人都可以買到。
Google 的張量處理器(TPU)是 Google 特別定制的芯片
Howard 表示,“Google 自家的基礎(chǔ)設(shè)備可以輕松地訓(xùn)練算法,但可能價(jià)值不大。但是只花 25 美元用同一機(jī)器在三小時(shí)內(nèi)完成相同的訓(xùn)練任務(wù),價(jià)值就很大”。
ImageNet 的結(jié)果特別明顯,因?yàn)樵u(píng)判標(biāo)準(zhǔn)很模糊。Google 的硬件幫助它大獲全勝,但是考慮到它是世界上最富有的科技公司,這個(gè)結(jié)果并不讓人驚訝。雖然 Fast.Ai 的學(xué)生的確提出了一種創(chuàng)新的解決方案,但是 Google 的解決方案也很巧妙。Google 的一個(gè)參賽團(tuán)隊(duì)使用了一種名為 “AutoML” 的算法,這一系列的算法可以在沒有人類指導(dǎo)的情況下搜索可以處理某一給定任務(wù)的最佳算法。也就是說,AI 設(shè)計(jì) AI。
理解這些結(jié)果的困難在于,并不是只要找出哪個(gè)團(tuán)隊(duì)的結(jié)果最好就可以了,這些團(tuán)隊(duì)有著社會(huì)和政治上的影響。例如,思考一下誰控制著人工智能的未來,是利用 AI 增強(qiáng)自身勢(shì)力和財(cái)富的 Amazon、Facebook 和 Google 等科技巨頭嗎?AI 帶來的好處是否能平均、民主地分配給所有人?
對(duì) Howard 而言,這些問題很重要。他表示,“我不希望深度學(xué)習(xí)被掌握在一小撮精英手中。每當(dāng)我與年輕的從業(yè)者和學(xué)生對(duì)話時(shí),越大越好這個(gè)觀念真的很讓我煩惱。對(duì) Google 這樣的公司而言,這樣的觀念很好,因?yàn)檫@能幫助它們吸引到人才,人們都認(rèn)為除非你在 Google 工作,否則你干不出什么的。但是這種觀念是錯(cuò)誤的”。
▌AI 的力量會(huì)被大公司獨(dú)占還是會(huì)被平均分配?
很遺憾,我們都不是 AI 預(yù)言家。沒人可以通過觀察 DAWNBench 挑戰(zhàn)賽的結(jié)果來預(yù)測 AI 的未來。如果說這項(xiàng)比賽的結(jié)果有什么啟示,那就是告訴我們 AI 行業(yè)還在不斷變化中。決定 AI 未來的是小巧靈妙的算法還是硬件的計(jì)算能力?沒人知道答案,且希望得到一個(gè)簡單的答案是不合理的。
DAWNBench 組織者 Zaharia 和Coleman 表示,他們很高興看到這項(xiàng)比賽引起了如此巨大的回應(yīng)。Coleman 稱:“比賽結(jié)果有很大的多樣性。看到機(jī)器學(xué)習(xí)領(lǐng)域發(fā)生的事后,我并不是很擔(dān)心(某一家公司)會(huì)主導(dǎo)整個(gè)行業(yè)。在我們現(xiàn)在所處的這個(gè)階段,我們?nèi)匀荒芸吹叫驴蚣艿牟粩嘤楷F(xiàn),以及大量想法的分享。”
這兩位組織者指出,大部分 DAWNBench 挑戰(zhàn)賽的參賽作品都是開源的,但是這不是比賽的一個(gè)評(píng)判標(biāo)準(zhǔn),這意味著這些作品的代碼都發(fā)布在網(wǎng)上,任何人都可以獲取。不管誰是比賽的獲勝者,每個(gè)人都能從中受益。
-
AI
+關(guān)注
關(guān)注
87文章
31410瀏覽量
269817 -
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54873 -
識(shí)別系統(tǒng)
+關(guān)注
關(guān)注
1文章
138瀏覽量
18823
原文標(biāo)題:個(gè)人開發(fā)者也可以戰(zhàn)勝Google等巨頭?AI靠的不只是“蠻力”
文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論