7月7日,全球人工智能和機(jī)器人峰會(huì)在深圳如期舉辦,由CCF中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的這次大會(huì)共聚集了來自全球30多位AI領(lǐng)域科學(xué)家、近300家AI明星企業(yè)。 當(dāng)今AI和機(jī)器人革命浪潮下,包括我國(guó)在內(nèi)的各國(guó)政府和投資界,都意識(shí)到推動(dòng)這兩個(gè)領(lǐng)域各個(gè)方面的全球協(xié)作、迎接機(jī)遇與挑戰(zhàn)的重要性。而擁有完備制造產(chǎn)業(yè)鏈、作為改革開放窗口的深圳,則是推動(dòng)AI與機(jī)器人行業(yè)產(chǎn)、學(xué)、研跨界協(xié)作的理想中心。基于這樣的時(shí)代背景,「CCF-GAIR」應(yīng)運(yùn)而生。
山世光,中科院計(jì)算所研究員、博導(dǎo),基金委優(yōu)青,CCF青年科學(xué)獎(jiǎng)獲得者,現(xiàn)任中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任,中科視拓創(chuàng)始人、董事長(zhǎng)兼CTO。他的研究領(lǐng)域?yàn)?a href="http://m.1cnz.cn/v/tag/3744/" target="_blank">計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。已在國(guó)內(nèi)外刊物和學(xué)術(shù)會(huì)議上發(fā)表論文200余篇,其中CCF A類論文60余篇,論文被谷歌學(xué)術(shù)引用10000余次。曾應(yīng)邀擔(dān)任過ICCV,ACCV,ICPR,F(xiàn)G,ICASSP等國(guó)際會(huì)議的領(lǐng)域主席,現(xiàn)任IEEE,TIP,CVIU,PRL,Neurocomputing,F(xiàn)CS等國(guó)際學(xué)術(shù)刊物的編委。研究成果獲2005年度國(guó)家科技進(jìn)步二等獎(jiǎng),2015年度國(guó)家自然科學(xué)二等獎(jiǎng),CVPR2008 Best Student Poster Award Runner-up獎(jiǎng)。
如何看待這次AI熱潮?
谷歌AlphaGo與李世石的世紀(jì)之戰(zhàn),讓人工智能(AI)這個(gè)話題再度火爆起來。山世光博士早在20年前就開始做AI領(lǐng)域中的計(jì)算機(jī)視覺技術(shù)研究,在這次GAIR大會(huì)分享中,他結(jié)合自己過去的科研經(jīng)歷和行業(yè)觀察,分別從四個(gè)不同的角度分析,給出了他對(duì)此次AI熱潮的一些看法:
從方法論角度看:過去幾十年流行的人類專家知識(shí)驅(qū)動(dòng)的AI方法論被數(shù)據(jù)驅(qū)動(dòng)的AI方法論全面取代。這里的數(shù)據(jù)主要指有監(jiān)督的大數(shù)據(jù)。人類智能的產(chǎn)生是不是也完全基于有監(jiān)督的大數(shù)據(jù)學(xué)習(xí)而來尚不得而知。從這個(gè)意義上講,計(jì)算智能和人類智能之間的差異也不得而知。
從學(xué)術(shù)角度來看:雖然有監(jiān)督大數(shù)據(jù)驅(qū)動(dòng)的方法論在某些領(lǐng)域已經(jīng)構(gòu)建出了超越人類智能的AI,但基于有監(jiān)督大數(shù)據(jù)的深度學(xué)習(xí)是否構(gòu)建機(jī)器智能時(shí)代充分且必要的基礎(chǔ)性方法?他個(gè)人認(rèn)為至少是不充分的,需要新的方法論。
從算法角度來看:主要得益于兩個(gè)方法:一是深度學(xué)習(xí),二是增強(qiáng)學(xué)習(xí)。增強(qiáng)學(xué)習(xí)被大家所熟知是因?yàn)锳lphaGo在圍棋上戰(zhàn)勝了人類最強(qiáng)的棋手。但實(shí)際上增強(qiáng)學(xué)習(xí)在很多場(chǎng)景下是不能用的,至少目前在視覺和語(yǔ)音處理等任務(wù)中尚未得到有效的應(yīng)用。而深度學(xué)習(xí)可類比人類學(xué)習(xí)方法里的歸納學(xué)習(xí),卻不適合演繹學(xué)習(xí)。深度學(xué)習(xí)是否可以廣泛應(yīng)用于推理類任務(wù)尚不得而知。
從做計(jì)算機(jī)視覺的角度來講:包括智能視頻監(jiān)控、考勤門禁等在內(nèi)的安防應(yīng)用以及醫(yī)療讀圖、基于視覺的汽車輔助駕駛等都是計(jì)算機(jī)視覺技術(shù)落地的方向,商業(yè)化產(chǎn)品已經(jīng)雨后春筍般涌上市場(chǎng)。
關(guān)于演講主題中的X表示什么意思,山世光博士在接下來的演講中給出了X數(shù)據(jù)的五個(gè)含義,分別是:第一,大數(shù)據(jù);第二,小數(shù)據(jù);第三,臟數(shù)據(jù);第四,無(wú)監(jiān)督數(shù)據(jù);第五,是增廣,通過增廣獲得更大的數(shù)據(jù)集。下面的分享實(shí)錄中會(huì)有對(duì)各個(gè)含義的詳細(xì)解讀。
為什么要做X數(shù)據(jù)驅(qū)動(dòng)?
山世光博士將深度學(xué)習(xí)算法、強(qiáng)大算力、大數(shù)據(jù)比作AI革命背后的“三駕馬車”,而這“三駕馬車“背后的現(xiàn)實(shí)問題是金錢投資,需要非常厲害的牛人做深度學(xué)習(xí)算法、搭建更加強(qiáng)大的計(jì)算力平臺(tái)以及收集更多的數(shù)據(jù)。其中數(shù)據(jù)收集和標(biāo)注的成本日趨昂貴,所以他們希望在這方面看看能不能做點(diǎn)什么。
關(guān)于SeetaVision視覺技術(shù)
人臉識(shí)別:SeetaVision的多姿態(tài)人臉檢測(cè)技術(shù)是在標(biāo)準(zhǔn)人臉檢測(cè)評(píng)測(cè)集FDDB上最好的方法之一。在100個(gè)誤檢的情況下,SeetaVision的檢測(cè)率達(dá)到了92%。此外還研發(fā)了檢測(cè)加速技術(shù),從而可以在嵌入式設(shè)備上實(shí)現(xiàn)實(shí)時(shí)的多姿態(tài)人臉檢測(cè)。第二個(gè)人臉核心技術(shù)是面部關(guān)鍵特征點(diǎn)的定位,SeetaVision實(shí)現(xiàn)了81個(gè)關(guān)鍵特征點(diǎn)的超實(shí)時(shí)檢測(cè)與跟蹤。SeetaVison人臉識(shí)別具體應(yīng)用包括人證一致性驗(yàn)證,員工考勤與打卡、黑白名單目標(biāo)人檢測(cè)等。
手勢(shì)識(shí)別:SeetaVision可以實(shí)現(xiàn)實(shí)時(shí)的手語(yǔ)翻譯,就像語(yǔ)音識(shí)別一樣,把1000常用詞形成的手語(yǔ)句子翻譯成自然語(yǔ)言文本。基于此,視拓目前已經(jīng)和美的合作,將其應(yīng)用于智能家居中。
情感計(jì)算:SeetaVision的基本表情識(shí)別率超過85%,基于普通攝像頭的心率估計(jì)也非常接近醫(yī)療設(shè)備的檢測(cè)結(jié)果。
視頻結(jié)構(gòu)化:面向智能視頻監(jiān)控類應(yīng)用,SeetaVision實(shí)現(xiàn)了嵌入式設(shè)備上的實(shí)時(shí)人車跟蹤,準(zhǔn)確度超過85%。
無(wú)人機(jī)視覺:針對(duì)無(wú)人機(jī)地面目標(biāo)檢測(cè)任務(wù),SeetaVision實(shí)現(xiàn)了高清視頻中地面車輛等目標(biāo)的實(shí)時(shí)檢測(cè)
分類與跟蹤。
山世光博士還表示,中科視拓的終極目標(biāo)是讓AI知人知面看世界,給每個(gè)AI裝上智慧的眼睛,讓它看清在跟誰(shuí)交互,周圍環(huán)境如何,以及正在發(fā)生什么事情。而面對(duì)目前市場(chǎng)上已有多家做人臉識(shí)別等視覺技術(shù)的創(chuàng)業(yè)公司,如何才能在競(jìng)爭(zhēng)中脫穎而出,山世光博士表示,將SeetaVision的商業(yè)模式定位為“開源賦能“,走差異化競(jìng)爭(zhēng)路線,重點(diǎn)關(guān)注與行業(yè)客戶之間的深度合作。
在大會(huì)分享的最后,山世光博士對(duì)AI未來發(fā)展需要注意哪些問題做了一些總結(jié),他認(rèn)為:
其一,魯棒性可能是AI和視覺智能一個(gè)最致命的問題。其二,AI的成長(zhǎng)需要多模態(tài)協(xié)同,不能單靠視覺智能或語(yǔ)音智能等。其三,如何基于小數(shù)據(jù)甚至是零數(shù)據(jù)準(zhǔn)確完成各類視覺任務(wù),還需要大量的深入研究。
以下是山世光博士在CCF-GAIR 2017的現(xiàn)場(chǎng)實(shí)錄,AI科技評(píng)論做了不改動(dòng)原意的編輯:
我今天報(bào)告的題目是《X數(shù)據(jù)驅(qū)動(dòng)的Seeta平臺(tái)與技術(shù)》,可能大家都在想X是什么,這里我們暫時(shí)認(rèn)為X就是一個(gè)問號(hào)。在接下里的報(bào)告中,我會(huì)從X數(shù)據(jù)入手,來重點(diǎn)介紹一下我們所做的工作。
其實(shí)我們大家都非常深切的體會(huì)到,我們正在邂逅一場(chǎng)前所未有的人工智能技術(shù)革命和應(yīng)用的井噴。在這樣的一個(gè)狀態(tài)下,它的背后是有“三駕馬車”或者“三個(gè)引擎”,就是深度學(xué)習(xí)算法、強(qiáng)大算力以及大數(shù)據(jù),這些因素的共同作用才產(chǎn)生了這一輪新的AI熱潮。
我這次報(bào)告的題目為什么叫“X數(shù)據(jù)驅(qū)動(dòng)”,主要從數(shù)據(jù)角度出發(fā),來看對(duì)AI產(chǎn)業(yè)能做什么事。
這一輪人工智能的熱潮,從方法論的角度來講,主要是源自AI研究范式的變遷。即從人類專家知識(shí)驅(qū)動(dòng)的方法論到數(shù)據(jù)驅(qū)動(dòng)的方法論的變遷。我們指的數(shù)據(jù),其實(shí)是特指有監(jiān)督的大數(shù)據(jù):一方面是數(shù)據(jù)量必須足夠大,另一方面這些數(shù)據(jù)還必須是帶有內(nèi)容標(biāo)簽的。人類智能的本質(zhì)同現(xiàn)在的計(jì)算智能之間的差異,在目前而言還是不得而知。因此我們非常有必要從學(xué)術(shù)角度來探討,數(shù)據(jù)驅(qū)動(dòng)或者有監(jiān)督的大數(shù)據(jù)驅(qū)動(dòng)這樣一種方法論,是否會(huì)是我們構(gòu)建整個(gè)機(jī)器智能時(shí)代的基礎(chǔ)設(shè)施。
當(dāng)然,在目前這種有監(jiān)督大數(shù)據(jù)驅(qū)動(dòng)的方法論條件下,在某些領(lǐng)域確實(shí)已經(jīng)出現(xiàn)AI超越人類智能的情況。這一輪AI熱潮,從算法角度,主要得益于兩個(gè)東西:一是深度學(xué)習(xí)、二是增強(qiáng)學(xué)習(xí)。增強(qiáng)學(xué)習(xí)被大家熟知是因?yàn)锳lphaGo在圍棋上戰(zhàn)勝了人類最強(qiáng)的棋手。實(shí)際上增強(qiáng)學(xué)習(xí)并不是放之四海皆可用的方法,它在很多場(chǎng)景下是不能用的,特別是在視覺和語(yǔ)音等場(chǎng)景下并沒有得到非常有效的應(yīng)用。因?yàn)樗枰狝I能夠自動(dòng)的判斷對(duì)錯(cuò),比如說下圍棋或者一個(gè)游戲,做得好或者不好,算法是可以自動(dòng)去判斷好或者不好、對(duì)或者錯(cuò)的。像我們的視覺、聽覺這樣的一些問題,比如說做人臉識(shí)別,AI算法本身識(shí)別錯(cuò)了,它是不能夠知道自己識(shí)別錯(cuò)了的,識(shí)別對(duì)了它自己也不知道,所以很難形成一個(gè)迭代的自我增強(qiáng)過程。如果是硬去迭代,很可能會(huì)學(xué)偏學(xué)傻,乃至走火入魔。
所以增強(qiáng)學(xué)習(xí)在這些問題上并沒有得到非常好的應(yīng)用。深度學(xué)習(xí)目前適合解決我稱之為“好數(shù)據(jù)肥沃”的領(lǐng)域,而且通常只對(duì)應(yīng)于人類學(xué)習(xí)方法里的歸納學(xué)習(xí)。然而,人類的學(xué)習(xí)除了歸納學(xué)習(xí)之外,還有演繹推理。針對(duì)演繹推理,深度學(xué)習(xí)則存在嚴(yán)重短板。舉個(gè)演繹推理的例子,比如說《幾何原本》,是歐幾里德從5條公理推演出來的。想用深度學(xué)習(xí)做這類自動(dòng)推演,目前來看是完全沒有希望的。當(dāng)然,這是一個(gè)很極端的例子,但我們?cè)谌粘I钪惺切枰罅客评淼模疃葘W(xué)習(xí)在這一點(diǎn)上,目前來看也沒有太多可以有作為的地方。
李開復(fù)老師在過去一段時(shí)間多次提及,在未來10年可能人工智能會(huì)取代10種職業(yè)50%的工作。我不知道大家怎么去看,我個(gè)人覺得保姆可能還是很難取代的,也許醫(yī)生更有可能會(huì)被取代。從我們做計(jì)算機(jī)視覺的角度來講,醫(yī)療讀圖是一個(gè)很重要的方向。對(duì)于做人臉識(shí)別或者圖像識(shí)別的人來說,保安則是我們更感興趣的群體,在未來10年,也許不是50%,而是80%的保安,會(huì)被一些自動(dòng)的系統(tǒng)所取代。比如說我們的一個(gè)企業(yè)客戶,用我們的人臉識(shí)別技術(shù)做單位的門禁和考勤,在1萬(wàn)個(gè)員工的情況下,可以實(shí)現(xiàn)不需要員工卡自動(dòng)做識(shí)別、開門和考勤的系統(tǒng),我想可能未來真的不需要一個(gè)保安坐在那兒了。
我和我的學(xué)生們?cè)谌ツ?月,基于計(jì)算所在視覺信息處學(xué)習(xí)方面的研究成果做了一個(gè)公司,叫做中科視拓,形成了一個(gè)產(chǎn)學(xué)研聯(lián)合體,一起開發(fā)SeetaVision技術(shù)。我們的目標(biāo)是讓AI能知人識(shí)面看世界,讓每個(gè)AI都長(zhǎng)上智慧的眼睛,讓它看清它在跟誰(shuí)交流、了解周圍正在發(fā)生什么事情,以便智能地應(yīng)對(duì)這些場(chǎng)景。
我們主要的底層技術(shù),就是在機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)理論、方法與技術(shù)。基于這些機(jī)器學(xué)習(xí)的方法,在人臉識(shí)別、情感計(jì)算、視頻結(jié)構(gòu)化和無(wú)人機(jī)視覺等方面,我們有自己的一些布局。我們過去的積累包括在這些領(lǐng)域的競(jìng)賽中,取得一些最好的成績(jī),其中包括人臉識(shí)別、手勢(shì)識(shí)別、行人檢測(cè)、圖像搜索等等任務(wù)。我們剛才也提到,業(yè)界已經(jīng)有像商湯、Face++等等有很多前輩公司,比我們?cè)缱吡硕嗄辍N覀冊(cè)谏虡I(yè)模式上也希望不斷探索新的路徑。當(dāng)前階段,我們采取”開源賦能“的差異化做法與一些重點(diǎn)客戶開展了深度合作。
所謂的開源,是指我們可以給B端客戶提供源碼級(jí)的引擎技術(shù)。更進(jìn)一步的是賦能,我們可以提供生成這些引擎的引擎技術(shù)。通俗地講,我們不但賣雞蛋,還賣下蛋的雞,這是完全不同的合作模式。去年8月中科視拓開源了Seetaface人臉識(shí)別引擎,它雖然不是業(yè)界最好的人臉技術(shù),但提供了一個(gè)優(yōu)秀的基準(zhǔn),從而顯著地提升了業(yè)界基準(zhǔn)水平,也為一些公司提供了參照。有很多客戶把Seetaface代碼用到產(chǎn)品中,并進(jìn)而與我們建立了更深度的合作。
在這里我也展示我們的一些核心技術(shù):
多視角人臉檢測(cè)技術(shù)
在人臉檢測(cè)方面實(shí)現(xiàn)多姿態(tài)的檢測(cè),在FDDB上是最好的方法之一。其實(shí)人臉檢測(cè)大家都非常熟悉,就是我們把這個(gè)畫面有多少個(gè)人臉找出來。FDDB也是在這個(gè)領(lǐng)域里面被廣泛采用的標(biāo)準(zhǔn)評(píng)測(cè),我們?cè)?00個(gè)誤檢時(shí)達(dá)到了接近93%的檢測(cè)率。另外,我們還實(shí)現(xiàn)了很多加速的方法,實(shí)現(xiàn)人臉的快速檢測(cè),包括在一些嵌入式設(shè)備上實(shí)現(xiàn)實(shí)時(shí)的檢測(cè)。
面部關(guān)鍵點(diǎn)定位技術(shù)
面部關(guān)鍵點(diǎn)定位技術(shù),是指在檢測(cè)到人臉的基礎(chǔ)上,實(shí)現(xiàn)一面部關(guān)鍵點(diǎn)的定位。我們的技術(shù)可以定位80多個(gè)面部特征點(diǎn),當(dāng)然我們也可以定位更多,但數(shù)目并不是關(guān)鍵。我們已實(shí)現(xiàn)超實(shí)時(shí)的特征點(diǎn)定位,在相關(guān)的數(shù)據(jù)庫(kù)中我們也取得了最好的成績(jī)。基于這些技術(shù),我們落地了一些人臉識(shí)別應(yīng)用,包括1:1的人證比對(duì)、網(wǎng)紋身份證照片人臉驗(yàn)證、以及人臉考勤系統(tǒng)等。與簡(jiǎn)單人證比對(duì)相比,在公安的應(yīng)用場(chǎng)景,身份證查驗(yàn)中心會(huì)把照片加一個(gè)網(wǎng)紋,再傳回來,而我們則需要首先把網(wǎng)紋去掉,再跟現(xiàn)場(chǎng)人員比較看看是不是這個(gè)人。目前我們的算法是可以正確判斷的。在人臉考勤方面,技術(shù)已經(jīng)成功應(yīng)用,可以實(shí)現(xiàn)1萬(wàn)員工的考勤和門禁,在誤識(shí)率約為1%的情況下,可以達(dá)到95%以上的正確識(shí)別率。
情感計(jì)算與心率估計(jì)
此外我們公司還在情緒感知方面有一些積累,可以實(shí)現(xiàn)85%以上的表情識(shí)別率。SeetaVision還可以實(shí)現(xiàn)準(zhǔn)確的心律估計(jì),這里的心律估計(jì)是指通過攝像頭拍攝人臉部視頻來估計(jì)人的心跳次數(shù)。只要攝像條件好,即可準(zhǔn)確估計(jì)。
手勢(shì)識(shí)別與視頻結(jié)構(gòu)化分析
我們還有一些手勢(shì)識(shí)別的技術(shù),以及手語(yǔ)實(shí)時(shí)翻譯技術(shù)。手語(yǔ)識(shí)別是指,用手語(yǔ)打一句話,把手語(yǔ)實(shí)時(shí)翻譯成文本,我們目前已經(jīng)和美的合作,實(shí)現(xiàn)對(duì)一些基本手勢(shì)的準(zhǔn)確識(shí)別,用于智能家居控制。
此外在視頻結(jié)構(gòu)化分析方面,我們也可以實(shí)現(xiàn)人車的跟蹤,在TX1上做到準(zhǔn)確度85%以上的實(shí)時(shí)檢測(cè)。
無(wú)人機(jī)視覺技術(shù)
我們還有一個(gè)方向是在做無(wú)人機(jī)視覺,能夠?qū)崿F(xiàn)地面車輛目標(biāo)檢測(cè),以及地面車輛的實(shí)時(shí)跟蹤。左圖是地面車輛目標(biāo)檢測(cè)。每個(gè)綠框都是我們檢測(cè)出來的車輛。我們特意選了一個(gè)堵車的場(chǎng)景,在目標(biāo)如此小且密集的情況下,人為識(shí)別都是有很多困難的,但我們的算法能夠?qū)崿F(xiàn)接近90%精度的檢測(cè)。右邊的視頻是實(shí)現(xiàn)跟蹤,能夠?qū)崿F(xiàn)對(duì)地面上車輛的實(shí)時(shí)跟蹤。
下面我回到報(bào)告的主題上來,即X數(shù)據(jù)驅(qū)動(dòng),針對(duì)X是什么,我想講幾種不同的場(chǎng)景。
第一,X=大,就是大數(shù)據(jù)驅(qū)動(dòng)的視覺引擎的設(shè)計(jì)。現(xiàn)在,無(wú)論大公司還是小公司,都是在拼命的收集數(shù)據(jù),進(jìn)行深度學(xué)習(xí)模型的優(yōu)化和訓(xùn)練。我們?cè)谌四樂矫嬗邪偃f(wàn)級(jí)人數(shù)的億級(jí)人臉數(shù)據(jù),每個(gè)人又進(jìn)一步有很多不同的場(chǎng)景和照片。我們?cè)谲囕v和行人方面也有千萬(wàn)量級(jí)的圖像和視頻,我們對(duì)這些數(shù)據(jù)做了大量的標(biāo)注,如:人的頭部、軀干和四肢的標(biāo)注信息。在無(wú)人機(jī)視覺方面,我們大概三四個(gè)月時(shí)間,就積累了百萬(wàn)量級(jí)的無(wú)人機(jī)視覺數(shù)據(jù),可以實(shí)現(xiàn)對(duì)車輛目標(biāo)以及車輛類型的檢測(cè)和估計(jì)。在大數(shù)據(jù)的條件下,類似于人的熟能生巧和見多識(shí)廣,見得多你就可以積累出來非常多的經(jīng)驗(yàn)。
第二,X=小,在很多場(chǎng)景下,我們?nèi)祟惈@得智能的能力并沒有依賴于大量的數(shù)據(jù)學(xué)習(xí),反而是一些小數(shù)據(jù)。所以在小數(shù)據(jù)的情況下,如何使得我們的算法也能夠有效果。
最通常的思路是做遷移學(xué)習(xí),所謂遷移學(xué)習(xí)最簡(jiǎn)單的是做Finetune,我們把一個(gè)已經(jīng)訓(xùn)練好的模型,再用小量的數(shù)據(jù)做調(diào)整和優(yōu)化,使得它適應(yīng)這些小數(shù)據(jù)所代表的應(yīng)用場(chǎng)景。例如:我們?cè)?015年參加感知年齡估計(jì)的競(jìng)賽并取得了亞軍。我們采用的算法是首先在人臉識(shí)別的數(shù)據(jù)庫(kù)里面,利用百萬(wàn)級(jí)的數(shù)據(jù)做訓(xùn)練,再用幾萬(wàn)量級(jí)真實(shí)年齡的數(shù)據(jù)做Finetune,最后在競(jìng)賽方提供的感知年齡的測(cè)試數(shù)據(jù)集上,取得了非常好的效果。
在表情識(shí)別方面,我們?cè)?014年參加了一個(gè)競(jìng)賽,因?yàn)闆]有大量的表情數(shù)據(jù),因此,我們采用人臉識(shí)別的數(shù)據(jù)做訓(xùn)練,直接拿人臉識(shí)別的特征來做,最后也是取得第一名的成績(jī)。可見我們很多的任務(wù),特別是相關(guān)的任務(wù),是可以運(yùn)用相關(guān)領(lǐng)域的數(shù)據(jù)來實(shí)現(xiàn)遷移的。
另外一個(gè)例子,比如面部特征點(diǎn)定位,要用到在面部標(biāo)注點(diǎn)的數(shù)據(jù)集。現(xiàn)在學(xué)術(shù)界或者工業(yè)界可能會(huì)有很多不同類型的數(shù)據(jù),比如一個(gè)數(shù)據(jù)集可能是68個(gè)點(diǎn)、另外一個(gè)數(shù)據(jù)集是74個(gè)點(diǎn),它們之間的定義是不一樣的,如何把它合并起來,使它變大,從而形成更好的算法,也是一個(gè)很值得關(guān)注的方向。
我們的一個(gè)博士生就做了這樣的一個(gè)算法,利用預(yù)測(cè)填補(bǔ)和深度回歸的方式解決問題,其背后也是深度學(xué)習(xí)的方法以及一些適應(yīng)性的調(diào)整。
另外一個(gè)例子,手機(jī)上會(huì)有越來越多的攝像頭,這些攝像頭有可能是彩色的、也有可能是黑白的、還有可能是深度的,還有可能是近紅外的。這些攝像頭采集的數(shù)據(jù),如何實(shí)現(xiàn)共用,這也是一個(gè)非常值得研究的話題。比如說在RGB-D數(shù)據(jù)集不足的情況下,如何基于大量的RGB數(shù)據(jù)來完成跨模態(tài)的融合,以實(shí)現(xiàn)更好的結(jié)果。
首先通過不同模態(tài)的數(shù)據(jù)分別建立深度學(xué)習(xí)的模型,之后再通過共有的網(wǎng)絡(luò)去實(shí)現(xiàn)它們的融合,再反饋回來調(diào)整每個(gè)模塊的深度模型,最終可以實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的跨模態(tài)的比對(duì)以及融合利用。
這種方式其實(shí)也是在利用小數(shù)據(jù)和大數(shù)據(jù)的關(guān)系,在小數(shù)據(jù)條件下更好地學(xué)習(xí)算法模型。利用這樣的一種方式,我們?cè)谌ツ?016CVPR上發(fā)布的模型,實(shí)現(xiàn)了彩色和深度信息之間的融合,乃至比對(duì)。這就是第二個(gè)X=小數(shù)據(jù)。
第三,X=臟,還有很多情況下是臟數(shù)據(jù)。所謂的臟數(shù)據(jù),比如在百度圖片搜索“成龍”,確實(shí)會(huì)反饋很多成龍的照片,但是也會(huì)有大量的不是成龍的照片。而我們又不想雇1000個(gè)人大量的數(shù)據(jù)把它標(biāo)注出來,干脆就基于有噪聲的數(shù)據(jù)實(shí)現(xiàn)機(jī)器學(xué)習(xí)。所以我們?cè)诮衲晏岢鼍哂小白约m錯(cuò)學(xué)習(xí)”能力的深度學(xué)習(xí)方法,在深度學(xué)習(xí)的過程中,一邊去學(xué)習(xí)算法,一邊去估計(jì)哪些樣本的標(biāo)簽可能是錯(cuò)誤的,我們把一些可能錯(cuò)誤的標(biāo)簽修正過來,從而得到更好的算法。利用這種策略,我們發(fā)現(xiàn),即使加了40%或者60%的錯(cuò)誤標(biāo)簽,我們的算法也能夠?qū)崿F(xiàn)不錯(cuò)的深度學(xué)習(xí)效果。
X=臟,這個(gè)臟還可能有另外一層含義,比如說有遮擋的情況。我們也提出了一個(gè)算法,在這個(gè)任務(wù)里面,我們能夠把面部的遮擋部分、臟的部分補(bǔ)出來,補(bǔ)出來之后再去實(shí)現(xiàn)感知。把這兩個(gè)過程迭代起來,形成聯(lián)合的學(xué)習(xí),這個(gè)工作發(fā)表在去年的CVPR上面,也是取得了非常不錯(cuò)的效果。
第四,X還可能是無(wú)監(jiān)督數(shù)據(jù)。所謂的無(wú)監(jiān)督數(shù)據(jù)是指沒有標(biāo)簽可以利用的數(shù)據(jù)。想象一個(gè)場(chǎng)景,比如我們手里面有大量東方人的有標(biāo)簽數(shù)據(jù),但是有標(biāo)簽的黑人數(shù)據(jù)相對(duì)較少,而我們可以在網(wǎng)上找到大量的無(wú)標(biāo)簽的黑人數(shù)據(jù),我們?nèi)绾文軌蚶眠@些沒有標(biāo)簽的數(shù)據(jù)進(jìn)行識(shí)別,這是一個(gè)很重要的問題。因?yàn)橹挥脰|方人的數(shù)據(jù)做訓(xùn)練,去識(shí)別黑人效果會(huì)非常差,反過來也是一樣,所以我們要進(jìn)行模型的調(diào)整,以實(shí)現(xiàn)從東方人數(shù)據(jù)到無(wú)監(jiān)督的黑人數(shù)據(jù)的遷移。我們這方面的工作發(fā)表在ICCV2015上面。
第五,X還可以是增廣數(shù)據(jù),即通過對(duì)已有少量數(shù)據(jù)進(jìn)行修改的方式,來生成大量數(shù)據(jù)。人類有一種能力叫做舉一反三,比如說給大家一張平面的照片,可能看到這張很帥的照片之后,你就會(huì)浮想聯(lián)翩,怎么浮想呢?可能會(huì)想這個(gè)人從側(cè)面看是什么樣子,他笑起來是什么樣子,他戴上眼鏡會(huì)變成什么樣子,我們具備這種能力。我們能不能讓機(jī)器也有這樣的能力,從一張照片增廣出大量數(shù)據(jù),用于學(xué)習(xí)。這里示例的是我們基于三維模型的方法做數(shù)據(jù)增廣的效果,我們可以生成這位帥哥在不同視角條件下的照片。
完成這個(gè)任務(wù),另外一種方法是采用這兩年非常火的GAN方法。輸入最左側(cè)的照片,用GAN可以生成不同表情的照片。還可以有更加復(fù)雜的,比如說帶上眼鏡,加上胡子等等。當(dāng)然這個(gè)也是有條件的,并不是說每張照片都可以做得這么好,基于GAN生成的人臉圖像是不是能夠用于提升算法,目前還是存疑的。
總結(jié)一下,X等于什么呢?大數(shù)據(jù)、小數(shù)據(jù)、無(wú)監(jiān)督數(shù)據(jù)、臟數(shù)據(jù)、或者通過增廣的方式,實(shí)現(xiàn)更大量數(shù)據(jù)的收集。其實(shí)還有一個(gè)非常重要的角度,就是類比人,人在很多時(shí)候都是自尋煩惱,當(dāng)然不是自尋煩惱,是自尋數(shù)據(jù)。例如,在我們觀察一個(gè)物體的時(shí)候,如果從一個(gè)角度不能全面觀察,我們會(huì)移動(dòng)來收集不同視角的數(shù)據(jù),這種主動(dòng)收集數(shù)據(jù)的能力,是現(xiàn)階段AI系統(tǒng)升級(jí)為自主AI系統(tǒng)的必備能力,特別是對(duì)自主無(wú)人機(jī)和機(jī)器人。
此外,從整個(gè)視覺智能的宏觀角度來說,我們現(xiàn)在已經(jīng)非常清晰的看到,魯棒性是視覺智能乃至整個(gè)AI的核心問題之一,即如何能夠?qū)崿F(xiàn)萬(wàn)無(wú)一失。其實(shí),現(xiàn)在像人臉識(shí)別的場(chǎng)景下,有些情況下我們已經(jīng)做到萬(wàn)無(wú)一失,但是仍有很多實(shí)際應(yīng)用的場(chǎng)景,例如智能駕駛等領(lǐng)域,我們需要的是百萬(wàn)無(wú)一失,意味著我們需要百萬(wàn)分之一的錯(cuò)誤率。在這樣的條件下,才能夠有更加廣泛的應(yīng)用。在這種情況下,是不是僅有大數(shù)據(jù)就足夠,這一點(diǎn)還存有疑問。
我們類比人類的發(fā)育成長(zhǎng)過程,人類具備兩個(gè)特性:一是多模態(tài)數(shù)據(jù)協(xié)同;二是基于小樣本的自主學(xué)習(xí)。
多模態(tài)數(shù)據(jù)協(xié)同
人類的多模態(tài)數(shù)據(jù)協(xié)同是指什么呢?對(duì)于人來說,除了眼睛之外,我們有很多其它信息來對(duì)我們的智力發(fā)育提供幫助,包括語(yǔ)音、姿態(tài)、動(dòng)作、以及背后有大量的知識(shí)庫(kù)作支撐。因此,人本身是需要一個(gè)多模態(tài)系統(tǒng)協(xié)同工作的魯棒AI,這帶給我們一個(gè)思路,AI的成長(zhǎng)和發(fā)育也需要多模態(tài)。
基于小樣本的自主學(xué)習(xí)
對(duì)人的智能發(fā)育來說,我們生來就有“大腦”,有所謂的智商,我們從一出生的時(shí)候,神經(jīng)系統(tǒng)基本上發(fā)育的差不多,到3歲就基本發(fā)育完畢。也就是說,人類作為一種高級(jí)生物,經(jīng)過數(shù)百萬(wàn)年甚至更長(zhǎng)的時(shí)間進(jìn)化出了這樣的一個(gè)”先天腦“模型。假設(shè)我們拿深度學(xué)習(xí)作為一個(gè)模型來類比,相當(dāng)于人在出生的時(shí)候,祖先已經(jīng)幫我們利用大量數(shù)據(jù)訓(xùn)練出了一個(gè)深度學(xué)習(xí)模型。
在后期的成長(zhǎng)過程中,其實(shí)是對(duì)這個(gè)深度模型基于小數(shù)據(jù)的不斷調(diào)整和適應(yīng)性的優(yōu)化。所以說,我們認(rèn)為AI發(fā)育的非常重要的一點(diǎn),就是如何基于小數(shù)據(jù)甚至是0數(shù)據(jù)完成智能的發(fā)育和后天的學(xué)習(xí)。比如說我跟大家描述一下某個(gè)人長(zhǎng)成什么樣子,你并沒有見過這個(gè)人,你并沒有見過這個(gè)人的照片,我們稱為0數(shù)據(jù),你如何能夠識(shí)別這個(gè)人,是對(duì)AI的一個(gè)挑戰(zhàn)。類似這樣的應(yīng)用場(chǎng)景,將來會(huì)有非常多的研究空間。
綜上,從人類智能的角度出發(fā)來看AI,AI要想在更多的場(chǎng)景下實(shí)現(xiàn)強(qiáng)大的視覺能力,還需要基于小數(shù)據(jù)乃至0數(shù)據(jù)情況下的自主學(xué)習(xí)能力、以及多模態(tài)的數(shù)據(jù)協(xié)同能力,這兩種能力為AI的發(fā)育提供了可能性,也為AI真正理解世界并服務(wù)人類提供了可能
評(píng)論