本文旨在介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用,包括分類(圖a)、定位、檢測(cè)(圖b)、語義分割(圖c)、和實(shí)例分割(圖d)。
圖像分類(image classification)
給定一張輸入圖像,圖像分類任務(wù)旨在判斷該圖像所屬類別。
(1) 圖像分類常用數(shù)據(jù)集
以下是幾種常用分類數(shù)據(jù)集,難度依次遞增。http://rodrigob.github.io/are_we_there_yet/build/列舉了各算法在各數(shù)據(jù)集上的性能排名。
MNIST60k訓(xùn)練圖像、10k測(cè)試圖像、10個(gè)類別、圖像大小1×28×28、內(nèi)容是0-9手寫數(shù)字。
CIFAR-1050k訓(xùn)練圖像、10k測(cè)試圖像、10個(gè)類別、圖像大小3×32×32。
CIFAR-10050k訓(xùn)練圖像、10k測(cè)試圖像、100個(gè)類別、圖像大小3×32×32。
ImageNet1.2M訓(xùn)練圖像、50k驗(yàn)證圖像、1k個(gè)類別。2017年及之前,每年會(huì)舉行基于ImageNet數(shù)據(jù)集的ILSVRC競(jìng)賽,這相當(dāng)于計(jì)算機(jī)視覺界奧林匹克。
(2) 圖像分類經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)
基本架構(gòu)我們用conv代表卷積層、bn代表批量歸一層、pool代表匯合層。最常見的網(wǎng)絡(luò)結(jié)構(gòu)順序是conv -> bn -> relu -> pool,其中卷積層用于提取特征、匯合層用于減少空間大小。隨著網(wǎng)絡(luò)深度的進(jìn)行,圖像的空間大小將越來越小,而通道數(shù)會(huì)越來越大。
針對(duì)你的任務(wù),如何設(shè)計(jì)網(wǎng)絡(luò)?當(dāng)面對(duì)你的實(shí)際任務(wù)時(shí),如果你的目標(biāo)是解決該任務(wù)而不是發(fā)明新算法,那么不要試圖自己設(shè)計(jì)全新的網(wǎng)絡(luò)結(jié)構(gòu),也不要試圖從零復(fù)現(xiàn)現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)。找已經(jīng)公開的實(shí)現(xiàn)和預(yù)訓(xùn)練模型進(jìn)行微調(diào)。去掉最后一個(gè)全連接層和對(duì)應(yīng)softmax,加上對(duì)應(yīng)你任務(wù)的全連接層和softmax,再固定住前面的層,只訓(xùn)練你加的部分。如果你的訓(xùn)練數(shù)據(jù)比較多,那么可以多微調(diào)幾層,甚至微調(diào)所有層。
LeNet-560k參數(shù)。網(wǎng)絡(luò)基本架構(gòu)為:conv1 (6) -> pool1 -> conv2 (16) -> pool2 -> fc3 (120) -> fc4 (84) -> fc5 (10) -> softmax。括號(hào)中的數(shù)字代表通道數(shù),網(wǎng)絡(luò)名稱中有5表示它有5層conv/fc層。當(dāng)時(shí),LeNet-5被成功用于ATM以對(duì)支票中的手寫數(shù)字進(jìn)行識(shí)別。LeNet取名源自其作者姓LeCun。
AlexNet60M參數(shù),ILSVRC 2012的冠軍網(wǎng)絡(luò)。網(wǎng)絡(luò)基本架構(gòu)為:conv1 (96) -> pool1 -> conv2 (256) -> pool2 -> conv3 (384) -> conv4 (384) -> conv5 (256) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。AlexNet有著和LeNet-5相似網(wǎng)絡(luò)結(jié)構(gòu),但更深、有更多參數(shù)。conv1使用11×11的濾波器、步長(zhǎng)為4使空間大小迅速減小(227×227 -> 55×55)。AlexNet的關(guān)鍵點(diǎn)是:(1).使用了ReLU激活函數(shù),使之有更好的梯度特性、訓(xùn)練更快。(2).使用了隨機(jī)失活(dropout)。(3).大量使用數(shù)據(jù)擴(kuò)充技術(shù)。AlexNet的意義在于它以高出第二名10%的性能取得了當(dāng)年ILSVRC競(jìng)賽的冠軍,這使人們意識(shí)到卷機(jī)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)。此外,AlexNet也使人們意識(shí)到可以利用GPU加速卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練。AlexNet取名源自其作者名Alex。
VGG-16/VGG-19138M參數(shù),ILSVRC 2014的亞軍網(wǎng)絡(luò)。VGG-16的基本架構(gòu)為:conv1^2 (64) -> pool1 -> conv2^2 (128) -> pool2 -> conv3^3 (256) -> pool3 -> conv4^3 (512) -> pool4 -> conv5^3 (512) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。 ^3代表重復(fù)3次。VGG網(wǎng)絡(luò)的關(guān)鍵點(diǎn)是:(1).結(jié)構(gòu)簡(jiǎn)單,只有3×3卷積和2×2匯合兩種配置,并且重復(fù)堆疊相同的模塊組合。卷積層不改變空間大小,每經(jīng)過一次匯合層,空間大小減半。(2).參數(shù)量大,而且大部分的參數(shù)集中在全連接層中。網(wǎng)絡(luò)名稱中有16表示它有16層conv/fc層。(3).合適的網(wǎng)絡(luò)初始化和使用批量歸一(batch normalization)層對(duì)訓(xùn)練深層網(wǎng)絡(luò)很重要。VGG-19結(jié)構(gòu)類似于VGG-16,有略好于VGG-16的性能,但VGG-19需要消耗更大的資源,因此實(shí)際中VGG-16使用得更多。由于VGG-16網(wǎng)絡(luò)結(jié)構(gòu)十分簡(jiǎn)單,并且很適合遷移學(xué)習(xí),因此至今VGG-16仍在廣泛使用。VGG-16和VGG-19取名源自作者所處研究組名(Visual Geometry Group)。
GoogLeNet5M參數(shù),ILSVRC 2014的冠軍網(wǎng)絡(luò)。GoogLeNet試圖回答在設(shè)計(jì)網(wǎng)絡(luò)時(shí)究竟應(yīng)該選多大尺寸的卷積、或者應(yīng)該選匯合層。其提出了Inception模塊,同時(shí)用1×1、3×3、5×5卷積和3×3匯合,并保留所有結(jié)果。網(wǎng)絡(luò)基本架構(gòu)為:conv1 (64) -> pool1 -> conv2^2 (64, 192) -> pool2 -> inc3 (256, 480) -> pool3 -> inc4^5 (512, 512, 512, 528, 832) -> pool4 -> inc5^2 (832, 1024) -> pool5 -> fc (1000)。GoogLeNet的關(guān)鍵點(diǎn)是:(1).多分支分別處理,并級(jí)聯(lián)結(jié)果。(2). 為了降低計(jì)算量,用了1×1卷積降維。GoogLeNet使用了全局平均匯合替代全連接層,使網(wǎng)絡(luò)參數(shù)大幅減少。GoogLeNet取名源自作者所處單位(Google),其中L大寫是為了向LeNet致敬,而Inception的名字來源于盜夢(mèng)空間中的"we need to go deeper"梗。
Inception v3/v4在GoogLeNet的基礎(chǔ)上進(jìn)一步降低參數(shù)。其和GoogLeNet有相似的Inception模塊,但將7×7和5×5卷積分解成若干等效3×3卷積,并在網(wǎng)絡(luò)中后部分把3×3卷積分解為1×3和3×1卷積。這使得在相似的網(wǎng)絡(luò)參數(shù)下網(wǎng)絡(luò)可以部署到42層。此外,Inception v3使用了批量歸一層。Inception v3是GoogLeNet計(jì)算量的2.5倍,而錯(cuò)誤率較后者下降了3%。Inception v4在Inception模塊基礎(chǔ)上結(jié)合了residual模塊(見下文),進(jìn)一步降低了0.4%的錯(cuò)誤率。
ResNetILSVRC 2015的冠軍網(wǎng)絡(luò)。ResNet旨在解決網(wǎng)絡(luò)加深后訓(xùn)練難度增大的現(xiàn)象。其提出了residual模塊,包含兩個(gè)3×3卷積和一個(gè)短路連接(左圖)。短路連接可以有效緩解反向傳播時(shí)由于深度過深導(dǎo)致的梯度消失現(xiàn)象,這使得網(wǎng)絡(luò)加深之后性能不會(huì)變差。短路連接是深度學(xué)習(xí)又一重要思想,除計(jì)算機(jī)視覺外,短路連接也被用到了機(jī)器翻譯、語音識(shí)別/合成領(lǐng)域。此外,具有短路連接的ResNet可以看作是許多不同深度而共享參數(shù)的網(wǎng)絡(luò)的集成,網(wǎng)絡(luò)數(shù)目隨層數(shù)指數(shù)增加。ResNet的關(guān)鍵點(diǎn)是:(1). 使用短路連接,使訓(xùn)練深層網(wǎng)絡(luò)更容易,并且重復(fù)堆疊相同的模塊組合。(2). ResNet大量使用了批量歸一層。(3). 對(duì)于很深的網(wǎng)絡(luò)(超過50層),ResNet使用了更高效的瓶頸(bottleneck)結(jié)構(gòu)(下圖右)。ResNet在ImageNet上取得了超過人的準(zhǔn)確率。
下表對(duì)比了上述幾種網(wǎng)絡(luò)結(jié)構(gòu)。
preResNetResNet的改進(jìn)。preResNet整了residual模塊中各層的順序。相比經(jīng)典residual模塊(a),(b)將BN共享會(huì)更加影響信息的短路傳播,使網(wǎng)絡(luò)更難訓(xùn)練、性能也更差;(c)直接將ReLU移到BN后會(huì)使該分支的輸出始終非負(fù),使網(wǎng)絡(luò)表示能力下降;(d)將ReLU提前解決了(e)的非負(fù)問題,但ReLU無法享受BN的效果;(e)將ReLU和BN都提前解決了(d)的問題。preResNet的短路連接(e)能更加直接的傳遞信息,進(jìn)而取得了比ResNet更好的性能。
ResNeXtResNet的另一改進(jìn)。傳統(tǒng)的方法通常是靠加深或加寬網(wǎng)絡(luò)來提升性能,但計(jì)算開銷也會(huì)隨之增加。ResNeXt旨在不改變模型復(fù)雜度的情況下提升性能。受精簡(jiǎn)而高效的Inception模塊啟發(fā),ResNeXt將ResNet中非短路那一分支變?yōu)槎鄠€(gè)分支。和Inception不同的是,每個(gè)分支的結(jié)構(gòu)都相同。ResNeXt的關(guān)鍵點(diǎn)是:(1). 沿用ResNet的短路連接,并且重復(fù)堆疊相同的模塊組合。(2).多分支分別處理。(3). 使用1×1卷積降低計(jì)算量。其綜合了ResNet和Inception的優(yōu)點(diǎn)。此外,ResNeXt巧妙地利用分組卷積進(jìn)行實(shí)現(xiàn)。ResNeXt發(fā)現(xiàn),增加分支數(shù)是比加深或加寬更有效地提升網(wǎng)絡(luò)性能的方式。ResNeXt的命名旨在說明這是下一代(next)的ResNet。
隨機(jī)深度ResNet的改進(jìn)。旨在緩解梯度消失和加速訓(xùn)練。類似于隨機(jī)失活(dropout),其以一定概率隨機(jī)將residual模塊失活。失活的模塊直接由短路分支輸出,而不經(jīng)過有參數(shù)的分支。在測(cè)試時(shí),前饋經(jīng)過全部模塊。隨機(jī)深度說明residual模塊是有信息冗余的。
DenseNet其目的也是避免梯度消失。和residual模塊不同,dense模塊中任意兩層之間均有短路連接。也就是說,每一層的輸入通過級(jí)聯(lián)(concatenation)包含了之前所有層的結(jié)果,即包含由低到高所有層次的特征。和之前方法不同的是,DenseNet中卷積層的濾波器數(shù)很少。DenseNet只用ResNet一半的參數(shù)即可達(dá)到ResNet的性能。實(shí)現(xiàn)方面,作者在大會(huì)報(bào)告指出,直接將輸出級(jí)聯(lián)會(huì)占用很大GPU存儲(chǔ)。后來,通過共享存儲(chǔ),可以在相同的GPU存儲(chǔ)資源下訓(xùn)練更深的DenseNet。但由于有些中間結(jié)果需要重復(fù)計(jì)算,該實(shí)現(xiàn)會(huì)增加訓(xùn)練時(shí)間。
目標(biāo)定位(object localization)
在圖像分類的基礎(chǔ)上,我們還想知道圖像中的目標(biāo)具體在圖像的什么位置,通常是以包圍盒的(bounding box)形式。
基本思路
多任務(wù)學(xué)習(xí),網(wǎng)絡(luò)帶有兩個(gè)輸出分支。一個(gè)分支用于做圖像分類,即全連接+softmax判斷目標(biāo)類別,和單純圖像分類區(qū)別在于這里還另外需要一個(gè)“背景”類。另一個(gè)分支用于判斷目標(biāo)位置,即完成回歸任務(wù)輸出四個(gè)數(shù)字標(biāo)記包圍盒位置(例如中心點(diǎn)橫縱坐標(biāo)和包圍盒長(zhǎng)寬),該分支輸出結(jié)果只有在分類分支判斷不為“背景”時(shí)才使用。
人體位姿定位/人臉定位
目標(biāo)定位的思路也可以用于人體位姿定位或人臉定位。這兩者都需要我們對(duì)一系列的人體關(guān)節(jié)或人臉關(guān)鍵點(diǎn)進(jìn)行回歸。
弱監(jiān)督定位
由于目標(biāo)定位是相對(duì)比較簡(jiǎn)單的任務(wù),近期的研究熱點(diǎn)是在只有標(biāo)記信息的條件下進(jìn)行目標(biāo)定位。其基本思路是從卷積結(jié)果中找到一些較高響應(yīng)的顯著性區(qū)域,認(rèn)為這個(gè)區(qū)域?qū)?yīng)圖像中的目標(biāo)。
目標(biāo)檢測(cè)(object detection)
在目標(biāo)定位中,通常只有一個(gè)或固定數(shù)目的目標(biāo),而目標(biāo)檢測(cè)更一般化,其圖像中出現(xiàn)的目標(biāo)種類和數(shù)目都不定。因此,目標(biāo)檢測(cè)是比目標(biāo)定位更具挑戰(zhàn)性的任務(wù)。
(1) 目標(biāo)檢測(cè)常用數(shù)據(jù)集
PASCAL VOC包含20個(gè)類別。通常是用VOC07和VOC12的trainval并集作為訓(xùn)練,用VOC07的測(cè)試集作為測(cè)試。
MS COCOCOCO比VOC更困難。COCO包含80k訓(xùn)練圖像、40k驗(yàn)證圖像、和20k沒有公開標(biāo)記的測(cè)試圖像(test-dev),80個(gè)類別,平均每張圖7.2個(gè)目標(biāo)。通常是用80k訓(xùn)練和35k驗(yàn)證圖像的并集作為訓(xùn)練,其余5k圖像作為驗(yàn)證,20k測(cè)試圖像用于線上測(cè)試。
mAP(mean average precision) 目標(biāo)檢測(cè)中的常用評(píng)價(jià)指標(biāo),計(jì)算方法如下。當(dāng)預(yù)測(cè)的包圍盒和真實(shí)包圍盒的交并比大于某一閾值(通常為0.5),則認(rèn)為該預(yù)測(cè)正確。對(duì)每個(gè)類別,我們畫出它的查準(zhǔn)率-查全率(precision-recall)曲線,平均準(zhǔn)確率是曲線下的面積。之后再對(duì)所有類別的平均準(zhǔn)確率求平均,即可得到mAP,其取值為[0, 100%]。
交并比(intersection over union, IoU) 算法預(yù)測(cè)的包圍盒和真實(shí)包圍盒交集的面積除以這兩個(gè)包圍盒并集的面積,取值為[0, 1]。交并比度量了算法預(yù)測(cè)的包圍盒和真實(shí)包圍盒的接近程度,交并比越大,兩個(gè)包圍盒的重疊程度越高。
(2) 基于候選區(qū)域的目標(biāo)檢測(cè)算法
基本思路
使用不同大小的窗口在圖像上滑動(dòng),在每個(gè)區(qū)域,對(duì)窗口內(nèi)的區(qū)域進(jìn)行目標(biāo)定位。即,將每個(gè)窗口內(nèi)的區(qū)域前饋網(wǎng)絡(luò),其分類分支用于判斷該區(qū)域的類別,回歸分支用于輸出包圍盒。基于滑動(dòng)窗的目標(biāo)檢測(cè)動(dòng)機(jī)是,盡管原圖中可能包含多個(gè)目標(biāo),但滑動(dòng)窗對(duì)應(yīng)的圖像局部區(qū)域內(nèi)通常只會(huì)有一個(gè)目標(biāo)(或沒有)。因此,我們可以沿用目標(biāo)定位的思路對(duì)窗口內(nèi)區(qū)域逐個(gè)進(jìn)行處理。但是,由于該方法要把圖像所有區(qū)域都滑動(dòng)一遍,而且滑動(dòng)窗大小不一,這會(huì)帶來很大的計(jì)算開銷。
R-CNN
先利用一些非深度學(xué)習(xí)的類別無關(guān)的無監(jiān)督方法,在圖像中找到一些可能包含目標(biāo)的候選區(qū)域。之后,對(duì)每個(gè)候選區(qū)域前饋網(wǎng)絡(luò),進(jìn)行目標(biāo)定位,即兩分支(分類+回歸)輸出。其中,我們?nèi)匀恍枰貧w分支的原因是,候選區(qū)域只是對(duì)包含目標(biāo)區(qū)域的一個(gè)粗略的估計(jì),我們需要有監(jiān)督地利用回歸分支得到更精確的包圍盒預(yù)測(cè)結(jié)果。R-CNN的重要性在于當(dāng)時(shí)目標(biāo)檢測(cè)已接近瓶頸期,而R-CNN利于在ImageNet預(yù)訓(xùn)練模型微調(diào)的方法一舉將VOC上mAP由35.1%提升至53.7%,確定了深度學(xué)習(xí)下目標(biāo)檢測(cè)的基本思路。一個(gè)有趣之處是R-CNN論文開篇第一句只有兩個(gè)詞"Features matter." 這點(diǎn)明了深度學(xué)習(xí)方法的核心。
候選區(qū)域(region proposal)
候選區(qū)域生成算法通常基于圖像的顏色、紋理、面積、位置等合并相似的像素,最終可以得到一系列的候選矩陣區(qū)域。這些算法,如selective search或EdgeBoxes,通常只需要幾秒的CPU時(shí)間,而且,一個(gè)典型的候選區(qū)域數(shù)目是2k,相比于用滑動(dòng)窗把圖像所有區(qū)域都滑動(dòng)一遍,基于候選區(qū)域的方法十分高效。另一方面,這些候選區(qū)域生成算法的查準(zhǔn)率(precision)一般,但查全率(recall)通常比較高,這使得我們不容易遺漏圖像中的目標(biāo)。
Fast R-CNN
R-CNN的弊端是需要多次前饋網(wǎng)絡(luò),這使得R-CNN的運(yùn)行效率不高,預(yù)測(cè)一張圖像需要47秒。Fast R-CNN同樣基于候選區(qū)域進(jìn)行目標(biāo)檢測(cè),但受SPPNet啟發(fā),在Fast R-CNN中,不同候選區(qū)域的卷積特征提取部分是共享的。也就是說,我們先將整副圖像前饋網(wǎng)絡(luò),并提取conv5卷積特征。之后,基于候選區(qū)域生成算法的結(jié)果在卷積特征上進(jìn)行采樣,這一步稱為興趣區(qū)域匯合。最后,對(duì)每個(gè)候選區(qū)域,進(jìn)行目標(biāo)定位,即兩分支(分類+回歸)輸出。
興趣區(qū)域匯合(region of interest pooling, RoI pooling)
興趣區(qū)域匯合旨在由任意大小的候選區(qū)域?qū)?yīng)的局部卷積特征提取得到固定大小的特征,這是因?yàn)橄乱徊降膬煞种ЬW(wǎng)絡(luò)由于有全連接層,需要其輸入大小固定。其做法是,先將候選區(qū)域投影到卷積特征上,再把對(duì)應(yīng)的卷積特征區(qū)域空間上劃分成固定數(shù)目的網(wǎng)格(數(shù)目根據(jù)下一步網(wǎng)絡(luò)希望的輸入大小確定,例如VGGNet需要7×7的網(wǎng)格),最后在每個(gè)小的網(wǎng)格區(qū)域內(nèi)進(jìn)行最大匯合,以得到固定大小的匯合結(jié)果。和經(jīng)典最大匯合一致,每個(gè)通道的興趣區(qū)域匯合是獨(dú)立的。
Faster R-CNN
Fast R-CNN測(cè)試時(shí)每張圖像前饋網(wǎng)絡(luò)只需0.2秒,但瓶頸在于提取候選區(qū)域需要2秒。Faster R-CNN不再使用現(xiàn)有的無監(jiān)督候選區(qū)域生成算法,而利用候選區(qū)域網(wǎng)絡(luò)從conv5特征中產(chǎn)生候選區(qū)域,并且將候選區(qū)域網(wǎng)絡(luò)集成到整個(gè)網(wǎng)絡(luò)中端到端訓(xùn)練。Faster R-CNN的測(cè)試時(shí)間是0.2秒,接近實(shí)時(shí)。后來有研究發(fā)現(xiàn),通過使用更少的候選區(qū)域,可以在性能損失不大的條件下進(jìn)一步提速。
候選區(qū)域網(wǎng)絡(luò)(region proposal networks, RPN)在卷積特征上的通過兩層卷積(3×3和1×1卷積),輸出兩個(gè)分支。其中,一個(gè)分支用于判斷每個(gè)錨盒是否包含了目標(biāo),另一個(gè)分支對(duì)每個(gè)錨盒輸出候選區(qū)域的4個(gè)坐標(biāo)。候選區(qū)域網(wǎng)絡(luò)實(shí)際上延續(xù)了基于滑動(dòng)窗進(jìn)行目標(biāo)定位的思路,不同之處在于候選區(qū)域網(wǎng)絡(luò)在卷積特征而不是在原圖上進(jìn)行滑動(dòng)。由于卷積特征的空間大小很小而感受野很大,即使使用3×3的滑動(dòng)窗,也能對(duì)應(yīng)于很大的原圖區(qū)域。Faster R-CNN實(shí)際使用了3組大小(128×128、256×256、512×512)、3組長(zhǎng)寬比(1:1、1:2、2:1),共計(jì)9個(gè)錨盒,這里錨盒的大小已經(jīng)超過conv5特征感受野的大小。對(duì)一張1000×600的圖像,可以得到20k個(gè)錨盒。
為什么要使用錨盒(anchor box)
錨盒是預(yù)先定義形狀和大小的包圍盒。使用錨盒的原因包括:(1). 圖像中的候選區(qū)域大小和長(zhǎng)寬比不同,直接回歸比對(duì)錨盒坐標(biāo)修正訓(xùn)練起來更困難。(2). conv5特征感受野很大,很可能該感受野內(nèi)包含了不止一個(gè)目標(biāo),使用多個(gè)錨盒可以同時(shí)對(duì)感受野內(nèi)出現(xiàn)的多個(gè)目標(biāo)進(jìn)行預(yù)測(cè)。(3). 使用錨盒也可以認(rèn)為這是向神經(jīng)網(wǎng)絡(luò)引入先驗(yàn)知識(shí)的一種方式。我們可以根據(jù)數(shù)據(jù)中包圍盒通常出現(xiàn)的形狀和大小設(shè)定一組錨盒。錨盒之間是獨(dú)立的,不同的錨盒對(duì)應(yīng)不同的目標(biāo),比如高瘦的錨盒對(duì)應(yīng)于人,而矮胖的錨盒對(duì)應(yīng)于車輛。
R-FCN
Faster R-CNN在RoI pooling之后,需要對(duì)每個(gè)候選區(qū)域單獨(dú)進(jìn)行兩分支預(yù)測(cè)。R-FCN旨在使幾乎所有的計(jì)算共享,以進(jìn)一步加快速度。由于圖像分類任務(wù)不關(guān)心目標(biāo)具體在圖像的位置,網(wǎng)絡(luò)具有平移不變性。但目標(biāo)檢測(cè)中由于要回歸出目標(biāo)的位置,所以網(wǎng)絡(luò)輸出應(yīng)當(dāng)受目標(biāo)平移的影響。為了緩和這兩者的矛盾,R-FCN顯式地給予深度卷積特征各通道以位置關(guān)系。在RoI匯合時(shí),先將候選區(qū)域劃分成3×3的網(wǎng)格,之后將不同網(wǎng)格對(duì)應(yīng)于候選卷積特征的不同通道,最后每個(gè)網(wǎng)格分別進(jìn)行平均匯合。R-FCN同樣采用了兩分支(分類+回歸)輸出。
小結(jié)
基于候選區(qū)域的目標(biāo)檢測(cè)算法通常需要兩步:第一步是從圖像中提取深度特征,第二步是對(duì)每個(gè)候選區(qū)域進(jìn)行定位(包括分類和回歸)。其中,第一步是圖像級(jí)別計(jì)算,一張圖像只需要前饋該部分網(wǎng)絡(luò)一次,而第二步是區(qū)域級(jí)別計(jì)算,每個(gè)候選區(qū)域都分別需要前饋該部分網(wǎng)絡(luò)一次。因此,第二步占用了整體主要的計(jì)算開銷。R-CNN, Fast R-CNN, Faster R-CNN, R-FCN這些算法的演進(jìn)思路是逐漸提高網(wǎng)絡(luò)中圖像級(jí)別計(jì)算的比例,同時(shí)降低區(qū)域級(jí)別計(jì)算的比例。R-CNN中幾乎所有的計(jì)算都是區(qū)域級(jí)別計(jì)算,而R-FCN中幾乎所有的計(jì)算都是圖像級(jí)別計(jì)算。
(3) 基于直接回歸的目標(biāo)檢測(cè)算法
基本思路
基于候選區(qū)域的方法由于有兩步操作,雖然檢測(cè)性能比較好,但速度上離實(shí)時(shí)仍有一些差距。基于直接回歸的方法不需要候選區(qū)域,直接輸出分類/回歸結(jié)果。這類方法由于圖像只需前饋網(wǎng)絡(luò)一次,速度通常更快,可以達(dá)到實(shí)時(shí)。
YOLO
將圖像劃分成7×7的網(wǎng)格,其中圖像中的真實(shí)目標(biāo)被其劃分到目標(biāo)中心所在的網(wǎng)格及其最接近的錨盒。對(duì)每個(gè)網(wǎng)格區(qū)域,網(wǎng)絡(luò)需要預(yù)測(cè):每個(gè)錨盒包含目標(biāo)的概率(不包含目標(biāo)時(shí)應(yīng)為0,否則為錨盒和真實(shí)包圍盒的IoU)、每個(gè)錨盒的4個(gè)坐標(biāo)、該網(wǎng)格的類別概率分布。每個(gè)錨盒的類別概率分布等于每個(gè)錨盒包含目標(biāo)的概率乘以該網(wǎng)格的類別概率分布。相比基于候選區(qū)域的方法,YOLO需要預(yù)測(cè)包含目標(biāo)的概率的原因是,圖像中大部分的區(qū)域不包含目標(biāo),而訓(xùn)練時(shí)只有目標(biāo)存在時(shí)才對(duì)坐標(biāo)和類別概率分布進(jìn)行更新。
YOLO的優(yōu)點(diǎn)在于:(1). 基于候選區(qū)域的方法的感受野是圖像中的局部區(qū)域,而YOLO可以利用整張圖像的信息。(2). 有更好的泛化能力。
YOLO的局限在于:(1). 不能很好處理網(wǎng)格中目標(biāo)數(shù)超過預(yù)設(shè)固定值,或網(wǎng)格中有多個(gè)目標(biāo)同時(shí)屬于一個(gè)錨盒的情況。(2). 對(duì)小目標(biāo)的檢測(cè)能力不夠好。(3). 對(duì)不常見長(zhǎng)寬比的包圍盒的檢測(cè)能力不強(qiáng)。(4). 計(jì)算損失時(shí)沒有考慮包圍盒大小。大的包圍盒中的小偏移和小的包圍盒中的小偏移應(yīng)有不同的影響。
SSD
相比YOLO,SSD在卷積特征后加了若干卷積層以減小特征空間大小,并通過綜合多層卷積層的檢測(cè)結(jié)果以檢測(cè)不同大小的目標(biāo)。此外,類似于Faster R-CNN的RPN,SSD使用3×3卷積取代了YOLO中的全連接層,以對(duì)不同大小和長(zhǎng)寬比的錨盒來進(jìn)行分類/回歸。SSD取得了比YOLO更快,接近Faster R-CNN的檢測(cè)性能。后來有研究發(fā)現(xiàn),相比其他方法,SSD受基礎(chǔ)模型性能的影響相對(duì)較小。
FPN
之前的方法都是取高層卷積特征。但由于高層特征會(huì)損失一些細(xì)節(jié)信息,F(xiàn)PN融合多層特征,以綜合高層、低分辨率、強(qiáng)語義信息和低層、高分辨率、弱語義信息來增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)的處理能力。此外,和通常用多層融合的結(jié)果做預(yù)測(cè)的方法不同,F(xiàn)PN在不同層獨(dú)立進(jìn)行預(yù)測(cè)。FPN既可以與基于候選區(qū)域的方法結(jié)合,也可以與基于直接回歸的方法結(jié)合。FPN在和Faster R-CNN結(jié)合后,在基本不增加原有模型計(jì)算量的情況下,大幅提高對(duì)小目標(biāo)的檢測(cè)性能。
RetinaNet
RetinaNet認(rèn)為,基于直接回歸的方法性能通常不如基于候選區(qū)域方法的原因是,前者會(huì)面臨極端的類別不平衡現(xiàn)象。基于候選區(qū)域的方法可以通過候選區(qū)域過濾掉大部分的背景區(qū)域,但基于直接回歸的方法需要直接面對(duì)類別不平衡。因此,RetinaNet通過改進(jìn)經(jīng)典的交叉熵?fù)p失以降低對(duì)已經(jīng)分的很好的樣例的損失值,提出了焦點(diǎn)(focal)損失函數(shù),以使模型訓(xùn)練時(shí)更加關(guān)注到困難的樣例上。RetinaNet取得了接近基于直接回歸方法的速度,和超過基于候選區(qū)域的方法的性能。
(4) 目標(biāo)檢測(cè)常用技巧
非最大抑制(non-max suppression, NMS)
目標(biāo)檢測(cè)可能會(huì)出現(xiàn)的一個(gè)問題是,模型會(huì)對(duì)同一目標(biāo)做出多次預(yù)測(cè),得到多個(gè)包圍盒。NMS旨在保留最接近真實(shí)包圍盒的那一個(gè)預(yù)測(cè)結(jié)果,而抑制其他的預(yù)測(cè)結(jié)果。NMS的做法是,首先,對(duì)每個(gè)類別,NMS先統(tǒng)計(jì)每個(gè)預(yù)測(cè)結(jié)果輸出的屬于該類別概率,并將預(yù)測(cè)結(jié)果按該概率由高至低排序。其次,NMS認(rèn)為對(duì)應(yīng)概率很小的預(yù)測(cè)結(jié)果并沒有找到目標(biāo),所以將其抑制。然后,NMS在剩余的預(yù)測(cè)結(jié)果中,找到對(duì)應(yīng)概率最大的預(yù)測(cè)結(jié)果,將其輸出,并抑制和該包圍盒有很大重疊(如IoU大于0.3)的其他包圍盒。重復(fù)上一步,直到所有的預(yù)測(cè)結(jié)果均被處理。
在線困難樣例挖掘(online hard example mining, OHEM)
目標(biāo)檢測(cè)的另一個(gè)問題是類別不平衡,圖像中大部分的區(qū)域是不包含目標(biāo)的,而只有小部分區(qū)域包含目標(biāo)。此外,不同目標(biāo)的檢測(cè)難度也有很大差異,絕大部分的目標(biāo)很容易被檢測(cè)到,而有一小部分目標(biāo)卻十分困難。OHEM和Boosting的思路類似,其根據(jù)損失值將所有候選區(qū)域進(jìn)行排序,并選擇損失值最高的一部分候選區(qū)域進(jìn)行優(yōu)化,使網(wǎng)絡(luò)更關(guān)注于圖像中更困難的目標(biāo)。此外,為了避免選到相互重疊很大的候選區(qū)域,OHEM對(duì)候選區(qū)域根據(jù)損失值進(jìn)行NMS。
在對(duì)數(shù)空間回歸
回歸相比分類優(yōu)化難度大了很多。L2\ell_損失對(duì)異常值比較敏感,由于有平方,異常值會(huì)有大的損失值,同時(shí)會(huì)有很大的梯度,使訓(xùn)練時(shí)很容易發(fā)生梯度爆炸。而L1\el損失的梯度不連續(xù)。在對(duì)數(shù)空間中,由于數(shù)值的動(dòng)態(tài)范圍小了很多,回歸訓(xùn)練起來也會(huì)容易很多。此外,也有人用平滑的L1\el損失進(jìn)行優(yōu)化。預(yù)先將回歸目標(biāo)規(guī)范化也會(huì)有助于訓(xùn)練。
語義分割(semantic segmentation)
語義分割是目標(biāo)檢測(cè)更進(jìn)階的任務(wù),目標(biāo)檢測(cè)只需要框出每個(gè)目標(biāo)的包圍盒,語義分割需要進(jìn)一步判斷圖像中哪些像素屬于哪個(gè)目標(biāo)。
(1) 語義分割常用數(shù)據(jù)集
PASCAL VOC 2012 1.5k訓(xùn)練圖像,1.5k驗(yàn)證圖像,20個(gè)類別(包含背景)。
MS COCO COCO比VOC更困難。有83k訓(xùn)練圖像,41k驗(yàn)證圖像,80k測(cè)試圖像,80個(gè)類別。
(2) 語義分割基本思路
基本思路
逐像素進(jìn)行圖像分類。我們將整張圖像輸入網(wǎng)絡(luò),使輸出的空間大小和輸入一致,通道數(shù)等于類別數(shù),分別代表了各空間位置屬于各類別的概率,即可以逐像素地進(jìn)行分類。
全卷積網(wǎng)絡(luò)+反卷積網(wǎng)絡(luò)
為使得輸出具有三維結(jié)構(gòu),全卷積網(wǎng)絡(luò)中沒有全連接層,只有卷積層和匯合層。但是隨著卷積和匯合的進(jìn)行,圖像通道數(shù)越來越大,而空間大小越來越小。要想使輸出和輸入有相同的空間大小,全卷積網(wǎng)絡(luò)需要使用反卷積和反匯合來增大空間大小。
反卷積(deconvolution)/轉(zhuǎn)置卷積(transpose convolution)
標(biāo)準(zhǔn)卷積的濾波器在輸入圖像中進(jìn)行滑動(dòng),每次和輸入圖像局部區(qū)域點(diǎn)乘得到一個(gè)輸出,而反卷積的濾波器在輸出圖像中進(jìn)行滑動(dòng),每個(gè)由一個(gè)輸入神經(jīng)元乘以濾波器得到一個(gè)輸出局部區(qū)域。反卷積的前向過程和卷積的反向過程完成的是相同的數(shù)學(xué)運(yùn)算。和標(biāo)準(zhǔn)卷積的濾波器一樣,反卷積的濾波器也是從數(shù)據(jù)中學(xué)到的。
反最大匯合(max-unpooling)
通常全卷積網(wǎng)絡(luò)是對(duì)稱的結(jié)構(gòu),在最大匯合時(shí)需要記下最大值所處局部區(qū)域位置,在對(duì)應(yīng)反最大匯合時(shí)將對(duì)應(yīng)位置輸出置為輸入,其余位置補(bǔ)零。反最大匯合可以彌補(bǔ)最大匯合時(shí)丟失的空間信息。反最大匯合的前向過程和最大匯合的反向過程完成的是相同的數(shù)學(xué)運(yùn)算。
(3) 語義分割常用技巧
擴(kuò)張卷積(dilated convolution)
經(jīng)常用于分割任務(wù)以增大有效感受野的一個(gè)技巧。標(biāo)準(zhǔn)卷積操作中每個(gè)輸出神經(jīng)元對(duì)應(yīng)的輸入局部區(qū)域是連續(xù)的,而擴(kuò)張卷積對(duì)應(yīng)的輸入局部區(qū)域在空間位置上不連續(xù)。擴(kuò)張卷積保持卷積參數(shù)量不變,但有更大的有效感受野。
條件隨機(jī)場(chǎng)(conditional random field, CRF)
條件隨機(jī)場(chǎng)是一種概率圖模型,常被用于微修全卷積網(wǎng)絡(luò)的輸出結(jié)果,使細(xì)節(jié)信息更好。其動(dòng)機(jī)是距離相近的像素、或像素值相近的像素更可能屬于相同的類別。此外,有研究工作用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)近似條件隨機(jī)場(chǎng)。條件隨機(jī)場(chǎng)的另一弊端是會(huì)考慮兩兩像素之間的關(guān)系,這使其運(yùn)行效率不高。
利用低層信息
綜合利用低層結(jié)果可以彌補(bǔ)隨著網(wǎng)絡(luò)加深丟失的細(xì)節(jié)和邊緣信息。
實(shí)例分割(instance segmentation)
語義分割不區(qū)分屬于相同類別的不同實(shí)例。例如,當(dāng)圖像中有多只貓時(shí),語義分割會(huì)將兩只貓整體的所有像素預(yù)測(cè)為“貓”這個(gè)類別。與此不同的是,實(shí)例分割需要區(qū)分出哪些像素屬于第一只貓、哪些像素屬于第二只貓。
基本思路
目標(biāo)檢測(cè)+語義分割。先用目標(biāo)檢測(cè)方法將圖像中的不同實(shí)例框出,再用語義分割方法在不同包圍盒內(nèi)進(jìn)行逐像素標(biāo)記。
Mask R-CNN
用FPN進(jìn)行目標(biāo)檢測(cè),并通過添加額外分支進(jìn)行語義分割(額外分割分支和原檢測(cè)分支不共享參數(shù)),即Master R-CNN有三個(gè)輸出分支(分類、坐標(biāo)回歸、和分割)。此外,Mask R-CNN的其他改進(jìn)有:(1). 改進(jìn)了RoI匯合,通過雙線性差值使候選區(qū)域和卷積特征的對(duì)齊不因量化而損失信息。(2). 在分割時(shí),Mask R-CNN將判斷類別和輸出模板(mask)這兩個(gè)任務(wù)解耦合,用sigmoid配合對(duì)率(logistic)損失函數(shù)對(duì)每個(gè)類別的模板單獨(dú)處理,取得了比經(jīng)典分割方法用softmax讓所有類別一起競(jìng)爭(zhēng)更好的效果。
-
定位
+關(guān)注
關(guān)注
5文章
1347瀏覽量
35449 -
分類
+關(guān)注
關(guān)注
0文章
61瀏覽量
12926 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46073 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5512瀏覽量
121404
原文標(biāo)題:【計(jì)算機(jī)視覺必讀干貨】圖像分類、定位、檢測(cè),語義分割和實(shí)例分割方法梳理
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論