2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了深圳市寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。
孫劍博士在CCF-GAIR現(xiàn)場演講
6 月 30 日,計算機視覺專場舉行,會場現(xiàn)場爆滿,不少聽眾站著聽完了長達數(shù)小時的演講。上午場的議題為“計算機視覺前沿與智能視頻”,由香港科技大學(xué) RAM-LAB 主任劉明擔(dān)綱主持。在他的串聯(lián)下,ICCV 2011 與 CVPR 2022 大會主席權(quán)龍、曠視科技首席科學(xué)家孫劍、云從科技聯(lián)合創(chuàng)始人姚志強、臻識科技 CEO 任鵬、云飛勵天首席科學(xué)家王孝宇以及商湯聯(lián)合創(chuàng)始人林達華等學(xué)界、業(yè)界大咖進行了 6 場深度分享,既有計算機視覺技術(shù)的前沿研究動態(tài),也有相關(guān)技術(shù)落地的具體方向。
曠視科技首席科學(xué)家、研究院院長孫劍博士為大家?guī)眍}為 “云、端、芯上的視覺計算”的精彩演講。孫劍認為,計算機視覺簡單講就是使機器能看,曠視科技希望能夠做到“賦能億萬攝像頭”,讓應(yīng)用在所有領(lǐng)域的攝像頭都具備智能,不管是在云、端還是在芯上。
計算機視覺的發(fā)展史就是研究如何表示圖像的歷史。深度學(xué)習(xí)流行之前,最好的辦法是基于特征的,從圖像里抽取特征,再進行分析;但是這個方法有兩個大缺點:首先,該方法完成的非線性變換次數(shù)非常有限;其二,大多數(shù)參數(shù)都是人工設(shè)計的,包括 Feature。深度神經(jīng)網(wǎng)絡(luò)的辦法彌補了手工設(shè)計特征的缺陷,整個非線性變換可以做非常多次,換句話說可以很深,所以特征表示能力非常強,并且可以自動地聯(lián)合訓(xùn)練所有參數(shù)。孫劍博士在微軟時提出 152 層的 ResNet,第一次在 ImageNet 大規(guī)模圖像分類任務(wù)上超過了人的能力。
接著,孫劍博士從計算機平臺的角度對出現(xiàn)的各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行了分類:GoogleNet、ResNet 在“云”上;MobileNet 以及曠視提出的 ShuffleNet 屬于“端”這一類;BNN、XNOR Net 和曠視提出的 DorefaNet 則是在“芯”上。針對目前分平臺設(shè)計相關(guān)網(wǎng)絡(luò)的現(xiàn)狀,孫劍相信未來會有一個“MetaNet 出現(xiàn),能夠統(tǒng)一解決各個平臺上的神經(jīng)網(wǎng)絡(luò)設(shè)計和優(yōu)化問題”。
最后,孫劍簡單介紹了曠視在云、端、芯三個平臺上的計算機視覺應(yīng)用,包括人臉識別、車輛識別、人臉支付、智慧安防、智慧金融、城市大腦、倉儲物流、新零售等。
以下為孫劍演講全文,雷鋒網(wǎng)進行了不改變原意的編輯。
目前人工智能一般劃分為感知和認知兩塊,這一張圖可以看到計算機視覺在人工智能領(lǐng)域所處的位置,綠色表示技術(shù)上有重大突破或者應(yīng)用落地相對成熟、橙色和黃色表示還需重大突破。
曠視科技成立至今已經(jīng) 7 年,一直專注于計算機視覺領(lǐng)域。去年,曠視獲得了兩個非常好的榮譽,MIT 評選的 2017 年度十大突破性技術(shù)中曠視科技的“刷臉支付技術(shù)”榜上有名,這是中國公司的技術(shù)第一次獲此殊榮;MIT 也將曠視列為 2017 年度全球五十大最聰明公司的第 11 位。曠視去年也完成了新一輪 4.6 億美金的融資,用于做更好、更深入的研究和商業(yè)落地。
簡單來講,計算機視覺就是讓機器能看。曠視科技自創(chuàng)立就一直在回答“如果機器能自動理解一張圖像或者一段視頻,我們能做什么?”這個問題。當然這么說比較抽象,其實具體講我們想做的是“賦能億萬攝像頭”。日常生活和各個行業(yè)中有很多的攝像頭,比如說手機、安防、工業(yè)、零售、無人車、機器人、家庭、無人機、醫(yī)療、遙感等等。在這些地方,大多攝像頭還沒智能化,我們的使命是使這些攝像頭有智能,不管是在云、端還是在芯片上;我們要構(gòu)建智能大腦來理解智能攝像頭輸入的大量信息。
相對于語音識別來說,計算機視覺應(yīng)用面非常廣泛。語音識別的輸入和輸出較為單一,核心目標是把一段語音變成一句文字。但計算機視覺系統(tǒng)的輸出要豐富很多,你需要知道圖像/視頻里面的物體、運動、場景,其中有什么人、人的位置、行為、表情、注意力等等。你會在不同行業(yè)或場景中面臨各種各樣不同的任務(wù),這也讓計算機視覺成為一個很大并增長很快的學(xué)術(shù)領(lǐng)域(今年計算機視覺年會 CVPR 參會人達到近 7000 人),也誕生出眾多的優(yōu)秀創(chuàng)業(yè)公司。
計算機視覺的核心問題包括分類、檢測、分割,分別是對一張圖、一張圖的不同區(qū)域和一張圖的每個像素做識別。另外如果輸入的是視頻,我們還需要利用時間關(guān)系做識別;其中最核心的是分類問題,因為它是后面三個任務(wù)的核心和基礎(chǔ)。
其實,人工智能一出現(xiàn)時,計算機視覺也誕生了。計算機視覺有一個先驅(qū)人物叫 David Marr,他在 80 年代初期提出了 Primal Sketch 方法,以及一個研究計算機視覺的大框架,認為圖像應(yīng)該先檢測 Edge,然后出 2 ? Dsketch 和 3D 模型。但是 MIT 教授 Marvin Minsky 批評說你這個理論很好,但是忽略了核心問題的研究——如何表述一張圖像。
計算機視覺的早期圖像表示模型是 Part-based,比如人體可以分解成頭、胳膊、腿;人臉可以分解成眉毛、眼睛、鼻子,這樣就可以通過 Part 這種組合式的方法表示物體。如果一個物體有結(jié)構(gòu),這種組合式方法很合適,但很多自然場景的物體沒有這么強的結(jié)構(gòu)就不合適了。
80 年代,早期的神經(jīng)網(wǎng)絡(luò)也成功運用在人臉和手寫數(shù)字識別上,但是僅限于這兩個領(lǐng)域。2001 年有一個叫作 Viola & Jones 的人臉檢測的方法,它先是定義一組 Haar 小波基,然后通過機器學(xué)習(xí)的方法學(xué)習(xí) Harr 小波基的組合來表示圖像。這個方法的好處是引入學(xué)習(xí)來構(gòu)造圖像表示,壞處是它限定在這個小波基上,對有結(jié)構(gòu)的物體做得好,對沒有結(jié)構(gòu)的物體就不一定合適了。
大概在 2000 - 2012 年,在深度學(xué)習(xí)之前最流行的表示是 Local Feature-based。該方法從一張圖片里面抽取數(shù)百個 Feature,去人工形成一些諸如 SIFT/HOG 的 Descriptor,編碼獲得高維向量之后,再送給 SVM 分類器,這是深度學(xué)習(xí)之前最好的方法。
對人臉也類似。我以前的研究組也用同樣方法做過人臉關(guān)鍵點抽取,獲得高維 Feature,這也是當時最好的人臉識別方式,但是它有兩個大缺點:第一,這個方法整體上是從輸入向量到另外高維向量的非線性變換,這個向量的變換次數(shù)是有限的,如果真正算它的非線性變換也就三、四次,變多了是不行的,性能不會提高;第二,其中大多數(shù)參數(shù)是人工設(shè)計的,包括 Feature,但人設(shè)計復(fù)雜系統(tǒng)的能力是有限的。
今天的主流方法是深度神經(jīng)網(wǎng)絡(luò),這兩個特性就被改變了,整個非線性變換非常長,可以做非常多次,所以系統(tǒng)的表示能力非常強;第二是所有的參數(shù)聯(lián)合訓(xùn)練。這兩點讓深度神經(jīng)網(wǎng)絡(luò)真正能夠取得非常好的效果,也包括當時我們在微軟提出的 152 層的殘差網(wǎng)絡(luò) ResNet,第一次在 ImageNet 上超過了人的性能。
ResNet 為什么能夠工作呢?到今天也沒有一個明確答案,當然有很多解釋。最直觀的解釋是說當你的非線性變換層數(shù)非常多,相鄰兩層變換的差別就非常小,與其直接學(xué)習(xí)這個映射,不如學(xué)習(xí)映射的變化,這樣的方式就讓整個學(xué)習(xí)過程,特別是訓(xùn)練優(yōu)化過程變得更容易。
還有一個解釋來自該論文(Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun. Deep Residual Learning For Image Recognition. CVPR 2016.)的第二作者張祥雨,他認為 ResNet 的整個學(xué)習(xí)過程是一個由淺到深的動態(tài)過程,在訓(xùn)練初期等效訓(xùn)練一個淺層網(wǎng)絡(luò),在訓(xùn)練后期等效訓(xùn)練一個深層網(wǎng)絡(luò)。
論文第一作者何愷明有另外一個更“科學(xué)”的解釋,他認為整個訓(xùn)練過程相當于深度學(xué)習(xí)的梯度下降過程中,最為困難的梯度消失問題被 ResNet 解決了,該解釋也發(fā)表在 ECCV 2016 的一篇論文(Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity Mapping in Deep Residual Networks. ECCV 2016.)中,并在該論文中第一次訓(xùn)練了一個 1001 層的神經(jīng)網(wǎng)絡(luò)。
還有一些同行提出的解釋。一種是把 ResNet 和 RNN 關(guān)聯(lián)起來,認為如果有 Weight Share, ResNet 可以看作是一種 RNN。還有一種解釋把 ResNet 看成是指數(shù)多個不同深度網(wǎng)絡(luò)的集成。用“集成”這個詞其實有些問題,因為一般我們做集成算法不聯(lián)合訓(xùn)練,但這里面整個 ResNet 里指數(shù)多個網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的,所以很難定義它是不是集成。
我個人比較認同的一種解釋是 Iterative Refinement,它是說網(wǎng)絡(luò)初期的層學(xué)習(xí)表示,后期很多層不斷迭代和 Refine 這個表示。這跟人理解看圖識字很相似,一個不容易理解的東西你要看一會,是基于當前一些已看內(nèi)容的理解,反復(fù)看才能看懂。
還有從從優(yōu)化觀點的解釋,如果不用 ResNet 這種構(gòu)造,系統(tǒng)的損失函數(shù)會非常坑坑洼洼和高低不平,所以很難優(yōu)化。我們知道整個網(wǎng)絡(luò)訓(xùn)練是非凸的優(yōu)化問題,如果是這種不光滑的損失函數(shù),訓(xùn)練很難跳出局部極小;如果是上圖右邊使用 ResNet 的情況,就可以比較容易地達一個很好的局部極小。最近研究表明,局部極小區(qū)域的面積和平坦性和一個方法的推廣能力非常強相關(guān)。
多層 ResNet 學(xué)習(xí)高度非線性映射的能力非常強。去年,ResNet 成功應(yīng)用于 DeepMind 的 AlphaGo Zero 系統(tǒng)中,用 一個40 或 80 層的網(wǎng)絡(luò)就可以學(xué)到從棋盤圖像到落子位置這樣一個高度復(fù)雜的映射,這非常讓人吃驚。
2012 年開始有各種各樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)。如果從計算平臺的角度看這些工作,大概可以分成三類:第一類是在“云”上,像 GoogleNet、ResNet,其目標是向著最高精度方向走,有 GPU、TPU 可以訓(xùn)練非常大的模型,來探知我們的認知邊界;第二類平臺是在“端”上,特別是一些嵌入式設(shè)備,這些設(shè)備上的計算能力,內(nèi)存訪問都有限制,但很多真實的場景就是如此,那你怎么去做這上面的研究工作呢?谷歌在去年提出 MobileNet 運行在移動端設(shè)備上,曠視科技去年提出 ShuffleNet,其目標是說如何在一個給定計算量的設(shè)備上得到最好的效果。
一個網(wǎng)絡(luò)的最基本結(jié)構(gòu)是多個 3×3 的卷積,ResNet 加了一個跳轉(zhuǎn)連接,我們在 ResNet 中還引入一個 Bottleneck 結(jié)構(gòu),先做 1×1,再做 3×3,再回到 1×1,這樣可以提高卷積的效率。
去年何愷明有一項工作叫 ResNeXt,它在 3x3 的基礎(chǔ)上引入分組卷積的方法,可以很好地提高卷積的有效性;谷歌的 MobileNet 是一個 3x3 分層卷積的方式,每個層各卷各的,這種方式非常有效,特別是在低端設(shè)備上。ShuffleNet 結(jié)合分組卷積和分層卷積的思想,對 1×1 Conv 分組;但是如果只分組的話,組間的信息不會交換,這樣會影響特征學(xué)習(xí),因此我們通過引入 Shuffle 操作,讓不同分組的信息更好地交換,然后做 3×3 的分層卷積,再回到 1×1 分組卷積,這就是 ShuffleNet 的核心思想。和其它方法相比,在相同的精度下,ShuffleNet 在真實設(shè)備上的速度要比 AlexNet 快 20 倍左右。
這是我們?nèi)ツ陮槭謾C設(shè)計的 ShuffleNet,它在 CPU/ARM 上效果非常好;如果在 GPU 上,它的性能并不好,因為 CPU 和 GPU 的特性不太一樣,這里面有很多原因,比如卷積的設(shè)計,Group 卷積等等,我就不贅述了。
今年我們設(shè)計了 ShuffleNet v2,也就是第二版,拋棄分組卷積的思想,引入 Channel Split 和 Channel Shuffle 組合的新方法。這個方法把 Channel 先一分為二,并把每個分支用非常簡單的結(jié)構(gòu)來做,然后在用 Shuffle 操作合并 Channel,這樣做的根源是我們在網(wǎng)絡(luò)設(shè)計中發(fā)現(xiàn)的一些基本指導(dǎo)原則,比如說我們需要平衡的卷積而不是稀疏的卷積,更加規(guī)整的卷積而不是零亂的卷積。
這項工作目前在 CPU 和 GPU 上都獲得了最好的精度和速度;不光在小模型,在大模型上同樣取得了非常好的效果,上圖最后一行是說 ShuffleNet v2 目前在計算量只有 12.7G Flops 情況下在 ImageNet 上取得了非常高的精度。
我們還需要將神經(jīng)網(wǎng)絡(luò)運行在芯片上,這不光對網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計有要求,還要對網(wǎng)絡(luò)內(nèi)部精度的表示做限制,現(xiàn)在最流行的方法是做低精度化,比如 BNN 和 XNOR Net,還有曠視科技提出的 DorefaNet。低精度方法是指神經(jīng)網(wǎng)絡(luò)的權(quán)重或激活值用低精度表示,比如 1 位,2 位,4 位。如果可以用低精度表示兩個向量,那么卷積計算就可以通過芯片上非常簡單的位運算完成計算。
我們提出的 DorefaNet 是第一個對梯度也做量化的研究工作,從而可以讓我們在 FPGA 甚至 ASIC 上訓(xùn)練。在這些設(shè)備上計算量是一方面,但是它的內(nèi)存訪問限制更大,DorefaNet 這種方法可以做到更好。上圖是我們在 ImageNet 上得到的 1 位,2 位,4 位和 6 位量化精度下的最好分類結(jié)果。
上述分類問題網(wǎng)絡(luò)設(shè)計需要考慮不同的平臺,其它問題多是以分類為基礎(chǔ),比如說檢測,上圖是檢測最近幾年的發(fā)展路程,從 R-CNN 到我們提出的 SPP-Net,到 Fast R-CNN,再到我們提出的 Faster R-CNN,它們都是先應(yīng)用基礎(chǔ)分類網(wǎng)絡(luò),然后構(gòu)建不同的物體檢測框架。
檢測方面的目前最有權(quán)威性的競賽是 COCO,檢測精度用 mAP 來表示,越高越好。2015 年我們在微軟亞洲研究院用 ResNet 做到了 37.3,曠視研究院去年參加了這個競賽,取得第一名的成績 52.5(滿分 100 分),又推進了一大步。我們獲得 COCO 2017 冠軍的論文是 MegDet。COCO 可以對人進行檢測,也可以抽取特征,我們也在研究后者的工作(Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, Jian Sun.Cascaded Pyramid Network for Multi-Person Pose Estimation.CVPR 2018.),提取人體骨架,通過骨架表示人體運動,進行行為分析,這樣比直接分析圖片進行行為訓(xùn)練更為有效。
最后介紹一些我們做的基于云、端、芯上的商業(yè)應(yīng)用。
在云上,曠視科技最早推出了面向開發(fā)者的 www.faceplusplus.com 的 AI 云服務(wù)。第二個云服務(wù)產(chǎn)品是 www.FaceID.com,這是目前最大的在線身份認證平臺,為互聯(lián)網(wǎng)金融、銀行、出行等行業(yè)提供在線身份認證服務(wù)。第三個非常大的云服務(wù)產(chǎn)品是城市大腦,它的核心是通過很多的傳感器,獲取大量信息,最后做出決策。視覺是目前最大的一個感知方式,因為中國有非常多的攝像頭,通過賦能這些視覺傳感器,我們可以知道人和車的屬性,了解交通和地域情況。其中一個很重要的應(yīng)用是公共安防,即如何用賦能億萬攝像頭來協(xié)助城市安全和高效運轉(zhuǎn)。
在端上的應(yīng)用更多,第一個就是手機。vivo V7 是第一款海外上市旗艦機,搭載了我們的人臉解鎖技術(shù),還有小米 Note 3 的人臉解鎖。我們幫助 vivo 和小米在 iPhoneX 發(fā)布之前推出了人臉解鎖手機。華為榮耀 V10 和 7C 手機同樣使用了我們的技術(shù)。華為為什么請孫楊做代言人?因為他長期游泳,指紋已經(jīng)磨光了,必須用人臉解鎖才能很好地使用手機。
不光是人臉解鎖,還包括人臉 AI 相機的場景識別,實時知道你在拍什么,更好地調(diào)節(jié)相機參數(shù),還可以做人臉三維重建,自動實現(xiàn) 3D 光效。另外一個很有趣的應(yīng)用是深圳和杭州的肯德基旗艦店,消費者可以直接刷臉點餐,這些圖是我在現(xiàn)場刷臉支付喝到一杯果汁的過程。第二個是新零售,借助圖像感知系統(tǒng),能把線下的人、貨、場的過程數(shù)字化。線上零售是數(shù)字化的,可以根據(jù)數(shù)字化的用戶統(tǒng)計信息或者個人信息做用戶畫像、大數(shù)據(jù)分析,幫助提升新零售效率。我們在線下零售,需要用圖像感知來做數(shù)字化。
最后是芯片。我們?nèi)ツ暝诎卜勒拱l(fā)布了一款智能人像抓拍機——MegEye-C3S,把 DorefaNet 跑在 FPGA 上,再放到相機里,這是業(yè)界第一款全畫幅(1080p)、全幀率(30fps)人臉實時檢測抓拍機。
再往下應(yīng)該怎么做呢?今天我們是分平臺,根據(jù)平臺的特性設(shè)計不同的網(wǎng)絡(luò)。我們相信下一代會有一個“MetaNet”,統(tǒng)一解決各個平臺上的神經(jīng)網(wǎng)絡(luò)設(shè)計和優(yōu)化的問題。
謝謝大家。
簡介:
孫劍,目前在曠視科技(Face++)擔(dān)任首席科學(xué)家、曠視研究院院長。孫劍博士2003年畢業(yè)于西安交通大學(xué)人工智能與機器人研究所,其主要研究方向是計算攝影學(xué)、人臉識別和基于深度學(xué)習(xí)的圖像理解。
自2002年以在CVPR,ICCV,ECCV,SIGGRAPH,PAMI五個頂級學(xué)術(shù)會議和期刊上發(fā)表學(xué)術(shù)論文100+篇,Google Scholar引用20,000+次,H-index 58,兩次獲得CVPR Best Paper Award(2009,2016)。孫劍博士于2010年被美國權(quán)威技術(shù)期刊MIT Technology Review 評選為“全球35歲以下杰出青年創(chuàng)新者”。孫劍博士帶領(lǐng)的團隊于2015年獲得圖像識別國際大賽五項冠軍(ImageNet分類,檢測和定位,MS COCO檢測和分割),其團隊開發(fā)出來的“深度殘差網(wǎng)絡(luò)”和“基于區(qū)域的快速物體檢測”技術(shù)已經(jīng)被廣泛應(yīng)用在學(xué)術(shù)和工業(yè)界。同時孫劍帶領(lǐng)的團隊的研究成果也廣泛被應(yīng)用在微軟Windows,Office,Bing,Azure,Surface,Xbox等多條產(chǎn)品線上。目前孫劍博士正在帶領(lǐng)曠視科技的研究團隊推進計算機視覺技術(shù)的進步,和探索其在工業(yè)和商業(yè)上的實踐。
-
人工智能
+關(guān)注
關(guān)注
1794文章
47623瀏覽量
239594 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46074
原文標題:孫劍:如何打造云、端、芯上的視覺計算 | CCF-GAIR 2018
文章出處:【微信號:deeplearningclass,微信公眾號:深度學(xué)習(xí)大講堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論