在线视频一区二区三区,一级爱爱,亚洲欧美在线观看首页

谷歌大腦的研究人員發(fā)表最新成果，他們采用神經(jīng)結(jié)構(gòu)搜索發(fā)現(xiàn)了一種新的特征金字塔結(jié)構(gòu)NAS-FPN，可實(shí)現(xiàn)比 Mask R-CNN、FPN、SSD 更快更好的目標(biāo)檢測(cè)。

目前用于目標(biāo)檢測(cè)的最先進(jìn)的卷積架構(gòu)都是人工設(shè)計(jì)的。

近日，谷歌大腦的研究人員發(fā)表最新成果，他們采用神經(jīng)結(jié)構(gòu)搜索發(fā)現(xiàn)了一種新的特征金字塔結(jié)構(gòu)NAS-FPN，可以更好地用于目標(biāo)檢測(cè)。論文已被CVPR 2019接收。

論文地址：

https://arxiv.org/pdf/1904.07392.pdf

研究人員采用神經(jīng)結(jié)構(gòu)搜索，在一個(gè)新的可擴(kuò)展搜索空間中發(fā)現(xiàn)了一種新的特征金字塔架構(gòu)。

這個(gè)被發(fā)現(xiàn)的架構(gòu)被命名為NAS-FPN，可實(shí)現(xiàn)比 Mask R-CNN、FPN、SSD 更快更好的目標(biāo)檢測(cè)。

與目前最先進(jìn)的目標(biāo)檢測(cè)模型相比，NAS-FPN與RetinaNet框架中各種主干模型相結(jié)合，可以實(shí)現(xiàn)更好的精度和延遲權(quán)衡。

與MobileNetV2中最先進(jìn)的SSDLite相比，NAS-FPN在移動(dòng)檢測(cè)精度方面提高了2 AP，達(dá)到48.3 AP，超過(guò)了Mask R-CNN的檢測(cè)精度，并且計(jì)算時(shí)間更少。

設(shè)計(jì)搜索空間，生成特征表示

學(xué)習(xí)視覺(jué)特征表示是計(jì)算機(jī)視覺(jué)中的一個(gè)基本問(wèn)題。近年來(lái)，針對(duì)圖像分類和目標(biāo)檢測(cè)的深度卷積網(wǎng)絡(luò)(ConvNets)模型架構(gòu)的設(shè)計(jì)取得了很大進(jìn)展。與預(yù)測(cè)圖像類別概率的圖像分類任務(wù)不同，目標(biāo)檢測(cè)有其自身的挑戰(zhàn)，即在多種尺度和位置上檢測(cè)和定位多個(gè)對(duì)象。為了解決這一問(wèn)題，許多先進(jìn)的目標(biāo)檢測(cè)器通常使用金字塔特征表示，它以多尺度特征層來(lái)表示圖像。

特征金字塔網(wǎng)絡(luò)(FPN)是產(chǎn)生用于目標(biāo)檢測(cè)的金字塔特征表示的典型模型架構(gòu)之一。該方法采用通常用于圖像分類的主干模型，通過(guò)自頂向下的連接和橫向連接，將主干模型特征層中的相鄰兩層按順序組合，從而構(gòu)建特征金字塔。

設(shè)計(jì)特征金字塔結(jié)構(gòu)的挑戰(zhàn)在于其巨大的設(shè)計(jì)空間。組合來(lái)自不同尺度的特征的可能連接的數(shù)量隨層數(shù)呈指數(shù)增長(zhǎng)。

最近的研究表明，神經(jīng)結(jié)構(gòu)搜索算法在巨大搜索空間中可以有效發(fā)現(xiàn)性能最佳的圖像分類架構(gòu)。受此啟發(fā)，我們提出可擴(kuò)展架構(gòu)的搜索空間，用以生成金字塔表示。

本研究的主要貢獻(xiàn)是設(shè)計(jì)了涵蓋所有可能的跨尺度連接的搜索空間，以生成多尺度特征表示。

在搜索過(guò)程中，我們的目標(biāo)是發(fā)現(xiàn)一個(gè)原子架構(gòu)(atomic architecture)，它具有相同的輸入和輸出特性級(jí)別，并且可以重復(fù)應(yīng)用。

模塊化搜索空間使搜索金字塔架構(gòu)易于管理。模塊化金字塔結(jié)構(gòu)的另一個(gè)好處是能夠隨時(shí)檢測(cè)目標(biāo)(或“提前退出”)。

所發(fā)現(xiàn)的架構(gòu)名為NAS-FPN，為構(gòu)建對(duì)象檢測(cè)架構(gòu)提供了很大的靈活性。NAS-FPN適用于各種主干模型，如MobileNet、ResNet和AmoebaNet。它為快速移動(dòng)模型和精確模型提供了更好的速度和精度的權(quán)衡。在相同的推理時(shí)間下，結(jié)合RetinaNet框架中的MobileNetV2主干網(wǎng)絡(luò)，其性能優(yōu)于目前最先進(jìn)的基于MobileNetV2的SSDLite移動(dòng)檢測(cè)模型，精度提高了2 AP。

憑借強(qiáng)大的AmoebaNet-D主干模型，NAS-FPN在單次測(cè)試中達(dá)到48.3 AP單模型精度。

NAS-FPN的檢測(cè)精度也超過(guò)了Mask R-CNN，且所需推理時(shí)間更短。

我們的結(jié)果摘要如圖1所示。

圖1：移動(dòng)設(shè)備上精確模型(上)和快速模型(下)的平均精度vs每張圖像的推理時(shí)間。綠色曲線突出了NAS-FPN與RetinaNet組合的結(jié)果。

方法：基于RetinaNet框架，搜索最佳架構(gòu)

我們的方法基于RetinaNet框架，因?yàn)樗?jiǎn)單有效。RetinaNet框架有兩個(gè)主要組件：主干網(wǎng)絡(luò)(通常是最先進(jìn)的圖像分類網(wǎng)絡(luò))和特征金字塔網(wǎng)絡(luò)(FPN)。該算法的目標(biāo)是為RetinaNet找到一個(gè)更好的FPN架構(gòu)。圖2顯示了RetinaNet架構(gòu)。

圖2：具有NAS-FPN的RetinaNet。在我們的方法中，特征金字塔網(wǎng)絡(luò)將由一個(gè)神經(jīng)結(jié)構(gòu)搜索算法來(lái)搜索。主干模型和用于類和邊界框預(yù)測(cè)的子網(wǎng)絡(luò)遵循了RetinaNet的原始設(shè)計(jì)。FPN的架構(gòu)可以堆疊N次，以獲得更高的精度。

為了找到一個(gè)更好的FPN，我們利用了B. Zoph等人提出的神經(jīng)結(jié)構(gòu)搜索框架[44]。神經(jīng)結(jié)構(gòu)搜索利用強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)控制器(controller)，在給定的搜索空間中選擇最優(yōu)的模型結(jié)構(gòu)。controller利用搜索空間中子模型的精度作為獎(jiǎng)勵(lì)信號(hào)來(lái)更新其參數(shù)。因此，通過(guò)反復(fù)試驗(yàn)，controller學(xué)會(huì)了隨著時(shí)間的推移生成更好的架構(gòu)。正如之前的研究所指出的，搜索空間對(duì)于架構(gòu)搜索的成功起著至關(guān)重要的作用。

接下來(lái)，我們將為FPN設(shè)計(jì)一個(gè)搜索空間來(lái)生成特征金字塔表示。為FPN的可伸縮性(即，這樣一個(gè)FPN架構(gòu)就可以在RetinaNet中重復(fù)堆疊)，在搜索過(guò)程中，我們還強(qiáng)制FPN自身重復(fù)N次，然后連接成一個(gè)大型架構(gòu)。我們將這個(gè)特征金字塔結(jié)構(gòu)稱為NAS-FPN。

架構(gòu)的搜索空間

在搜索空間中，特征金字塔網(wǎng)絡(luò)由許多“合并單元”組成，這些單元將許多輸入層組合成RetinaNet的表示。

特征金字塔網(wǎng)絡(luò)

特征金字塔網(wǎng)絡(luò)以多尺度特征層為輸入，在相同尺度下生成輸出特征層，如圖2所示。

合并單元(Merging cell)

在以往的目標(biāo)檢測(cè)工作中，一個(gè)重要的發(fā)現(xiàn)是，需要在不同尺度上“合并”特征。跨尺度連接允許模型將具有強(qiáng)語(yǔ)義的高級(jí)特性和具有高分辨率的低級(jí)特性結(jié)合。

我們提議merging cell，這是FPN的一個(gè)基本構(gòu)建塊，將任意兩個(gè)輸入特性層合并到一個(gè)輸出特性層中。

在我們的實(shí)現(xiàn)中，每個(gè)merging cell接受兩個(gè)輸入特性層(可能來(lái)自不同scale)，應(yīng)用處理操作，然后將它們組合起來(lái)，生成一個(gè)所需規(guī)模的輸出特性層。

構(gòu)建merging cell的過(guò)程如圖3所示。

圖3：merging cell中需要四個(gè)預(yù)測(cè)步驟。

每個(gè) merging cell 有4個(gè)預(yù)測(cè)步驟：

步驟1：從候選項(xiàng)中選擇一個(gè)特征層；

步驟2：從候選項(xiàng)中選擇另一個(gè)特性層，無(wú)需替換；

步驟3：選擇輸出特性分辨率

步驟4：選擇一個(gè)二進(jìn)op，將步驟1和步驟2中選擇的hi和hj組合起來(lái)，生成具有步驟3中選擇的分辨率的特征層。

在步驟4中，我們?cè)谒阉骺臻g中設(shè)計(jì)了兩個(gè)二進(jìn)操作，sum和global pooling，如圖4所示：

圖4：Binary operations

實(shí)驗(yàn)和結(jié)果

我們?cè)趯?shí)驗(yàn)中使用了RetinaNet的開(kāi)源實(shí)現(xiàn)。實(shí)驗(yàn)設(shè)置細(xì)節(jié)請(qǐng)參考原論文。

模型在COCO train2017上進(jìn)行訓(xùn)練，大部分實(shí)驗(yàn)采用COCO val2017進(jìn)行評(píng)估。在表1中，我們報(bào)告了test-dev的準(zhǔn)確度，以便與現(xiàn)有方法進(jìn)行比較。

表1：使用NAS-FPN和其他最先進(jìn)的檢測(cè)器的RetinaNet在COCO的test-dev set上的性能比較

架構(gòu)搜索找到的特征金字塔結(jié)構(gòu)

什么是好的特性金字塔結(jié)構(gòu)？我們希望通過(guò)可視化所發(fā)現(xiàn)的架構(gòu)來(lái)闡明這個(gè)問(wèn)題。

在圖7(b-f)中，我們繪制了在RL訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)逐漸提高的NAS-FPN架構(gòu)。

圖7：NAS-FPN架構(gòu)圖。

圖7中，每個(gè)點(diǎn)代表一個(gè)特征層。同一行的特征層具有相同的分辨率。分辨率在自底向上下降。箭頭表示內(nèi)部層之間的連接。圖中左側(cè)是輸入層。金字塔網(wǎng)絡(luò)的輸入用綠色圓圈標(biāo)記，輸出用紅色圓圈標(biāo)記。(a)基線FPN架構(gòu)。(b-f)通過(guò)對(duì)RNN控制器的訓(xùn)練進(jìn)行神經(jīng)結(jié)構(gòu)搜索發(fā)現(xiàn)的7-cell NAS-FPN結(jié)構(gòu)。(f)我們?cè)趯?shí)驗(yàn)中使用的NAS-FPN。

可擴(kuò)展的特征金字塔結(jié)構(gòu)

在本節(jié)中，我們展示了如何通過(guò)調(diào)整(1)主干模型、(2)重復(fù)金字塔網(wǎng)絡(luò)的數(shù)量和(3)金字塔網(wǎng)絡(luò)的維數(shù)來(lái)控制模型容量。我們將討論這些調(diào)整如何權(quán)衡計(jì)算時(shí)間和速度。

疊加金字塔網(wǎng)絡(luò)。

我們的金字塔網(wǎng)絡(luò)有一個(gè)很好的特性，它可以通過(guò)疊加多個(gè)重復(fù)的架構(gòu)來(lái)擴(kuò)展成更大的架構(gòu)。

在圖8a中，我們顯示了普通FPN架構(gòu)的疊加并不總是提高性能，而NAS-FPN的疊加顯著提高了精度。

這個(gè)結(jié)果突出了我們的搜索算法可以找到可擴(kuò)展的架構(gòu)，這可能很難手工設(shè)計(jì)。

圖8：通過(guò)(a)疊加金字塔網(wǎng)絡(luò)，(b)改變主干結(jié)構(gòu)，(c)增加金字塔網(wǎng)絡(luò)的特征維數(shù)，可以控制NAS-FPN的模型容量。

采用不同的主干架構(gòu)。

在對(duì)象檢測(cè)架構(gòu)的準(zhǔn)確性和速度之間進(jìn)行權(quán)衡的一種常見(jiàn)方法是更改主干架構(gòu)。

圖8b顯示了不同主干上的NAS-FPN的性能。在MobilenetV2上應(yīng)用NAS-FPN時(shí)，我們?cè)?60B FLOPs時(shí)得到了36.6 AP的精度。

調(diào)整特征金字塔網(wǎng)絡(luò)的特征維數(shù)。

另一種提高模型容量的方法是在NAS-FPN中增加特征層的特征維數(shù)。圖8c顯示了采用ResNet-50主干架構(gòu)的NAS-FPN中128、256和384個(gè)特征維度的結(jié)果。毫無(wú)疑問(wèn)，增加特征維可以提高檢測(cè)性能。

高檢測(cè)精度的架構(gòu)

利用可擴(kuò)展的NAS-FPN架構(gòu)，我們討論了如何在保持效率的同時(shí)構(gòu)建準(zhǔn)確的模型。

圖9顯示，與現(xiàn)有方法相比，NAS-FPN與最先進(jìn)的Mask R-CNN模型一樣精確，且計(jì)算時(shí)間更短。

圖9：檢測(cè)精度與推理時(shí)間(左)、FLOPs(中)和參數(shù)(右)的關(guān)系。

結(jié)論

本文提出利用神經(jīng)結(jié)構(gòu)搜索進(jìn)一步優(yōu)化用于目標(biāo)檢測(cè)的特征金字塔網(wǎng)絡(luò)的設(shè)計(jì)過(guò)程。在COCO數(shù)據(jù)集上的實(shí)驗(yàn)表明，神經(jīng)結(jié)構(gòu)搜索發(fā)現(xiàn)的架構(gòu)，名為NAS-FPN，具有良好的靈活性和高性能，可用于構(gòu)建精確的檢測(cè)模型。在廣泛的精度和速度權(quán)衡方面，NAS-FPN在許多主干架構(gòu)上產(chǎn)生了顯著的改進(jìn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

檢測(cè)器

檢測(cè)器

+關(guān)注

關(guān)注
1

文章
866

瀏覽量
47719
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6172

瀏覽量
105619
SSD

SSD

+關(guān)注

關(guān)注
21

文章
2865

瀏覽量
117511

原文標(biāo)題：谷歌大腦重磅研究：神經(jīng)結(jié)構(gòu)搜索發(fā)現(xiàn)全新特征金字塔架構(gòu)，超越Mask R-CNN等

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

PCB工程師金字塔分級(jí)標(biāo)準(zhǔn)

PCB工程師金字塔分級(jí)標(biāo)準(zhǔn)

發(fā)表于 08-06 13:21

自制for循環(huán)打印金字塔

自制for循環(huán)打印金字塔

發(fā)表于 09-18 08:46

基于金字塔模型的地形網(wǎng)格裂縫消除算法

本文針對(duì)基于多分辨金字塔模型繪制海量地形時(shí)的網(wǎng)格裂縫問(wèn)題，提出了一種網(wǎng)格裂縫消除算法。該算法利用分裂標(biāo)記表，結(jié)合金字塔模型本身分塊與多分辨率的特性，從整體上

發(fā)表于 12-30 12:02 ?8次下載

新型太陽(yáng)能電池板之光伏金字塔結(jié)構(gòu)反射紅外線

很好的解決方案。因?yàn)?b class='flag-5'>一方面主動(dòng)冷卻方式會(huì)消耗能源，成本較高，另一方面還會(huì)干擾太陽(yáng)能電池板有效吸收光線。為了解決這個(gè)問(wèn)題，近日斯坦福大學(xué)的科學(xué)家們發(fā)明了一種新型太陽(yáng)能電池板，能夠通過(guò)表面的微型三角

發(fā)表于 10-24 10:47 ?5次下載

新型太陽(yáng)能電池板之光伏<b class='flag-5'>金字塔結(jié)構(gòu)</b>反射紅外線

繪制金字塔程序?qū)崿F(xiàn)

用c語(yǔ)言編程繪制金字塔

發(fā)表于 11-27 16:24 ?833次閱讀

可控特性的金字塔變換

本文設(shè)計(jì)了一種具有平移不變性、方向和尺度聯(lián)合可控特性的金字塔變換，稱為幾何變形可控金字塔變換（DPT）。此DPT從一種數(shù)值形式表示的方向可控

發(fā)表于 12-14 16:41 ?4次下載

基于梯度方向直方圖與高斯金字塔的車牌模糊漢字識(shí)別方法

針對(duì)現(xiàn)有車牌識(shí)別方法中對(duì)模糊車牌識(shí)別率不高的問(wèn)題，提出一種結(jié)合高斯金字塔與梯度方向直方圖（HOG）特征的車牌識(shí)別算法。利用金字塔模型多尺度表達(dá)的方法，首先對(duì)車牌模糊漢字圖像建立兩層高斯

發(fā)表于 12-25 10:43 ?0次下載

基于梯度方向直方圖與高斯<b class='flag-5'>金字塔</b>的車牌模糊漢字識(shí)別方法

一種金字塔注意力網(wǎng)絡(luò)，用于處理圖像語(yǔ)義分割問(wèn)題

基于以上觀察，我們提出了特征金字塔注意力模塊 (FPA)，該模塊能夠融合來(lái)自 U 型網(wǎng)絡(luò) (如特征金字塔網(wǎng)絡(luò) FPN) 所提取的三

發(fā)表于 06-05 09:21 ?1.2w次閱讀

<b class='flag-5'>一種</b><b class='flag-5'>金字塔</b>注意力網(wǎng)絡(luò)，用于處理圖像語(yǔ)義分割問(wèn)題

FAIR何愷明團(tuán)隊(duì)最新論文提出“全景FPN”，聚焦于圖像的全景分割任務(wù)

特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network)：首先簡(jiǎn)要回顧一下FPN。FPN采用

發(fā)表于 01-11 08:57 ?6191次閱讀

采用多任務(wù)金字塔重疊匹配特征識(shí)別行人

針對(duì)基于局部特征的行人重識(shí)別方法在行人錯(cuò)位和姿態(tài)變化時(shí)識(shí)別精度較低的問(wèn)題，提出一種采用多任務(wù)金宇塔重疊匹配特征的重識(shí)別方法。在訓(xùn)練階段，使用

發(fā)表于 03-11 16:05 ?10次下載

基于全局特征金字塔網(wǎng)絡(luò)的信息融合方法

特征不平衡問(wèn)題是影響神經(jīng)網(wǎng)絡(luò)檢測(cè)效率的關(guān)鍵因素。針對(duì) Mask r-CNN中的特征不平衡問(wèn)題，提出種基于全局特征

發(fā)表于 03-24 14:51 ?13次下載

基于非對(duì)稱空間金字塔池化模型的CNN結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)因具有強(qiáng)大的表征能力而被廣泛用于圖像處理算法，但其在處理過(guò)程中存在耗時(shí)和信息損失等不足。為此，提出一種基于非對(duì)稱空間金字塔池化模型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。設(shè)計(jì)非對(duì)稱

發(fā)表于 03-30 11:16 ?16次下載

基于非對(duì)稱空間金字塔池化模型的CNN結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)因具有強(qiáng)大的表征能力而被廣泛用于圖像處理算法，但其在處理過(guò)程中存在耗時(shí)和信息損失等不足。為此，提出一種基于非對(duì)稱空間金字塔池化模型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。設(shè)計(jì)非對(duì)稱

發(fā)表于 03-30 11:16 ?11次下載

基于規(guī)范化函數(shù)的深度金字塔模型算法

傳統(tǒng)深度金字塔模型作為一種有效的行人檢測(cè)算法備受關(guān)注，融合可變形部件模型和卷積神經(jīng)網(wǎng)絡(luò)模型，但特征提取部分使用的算法像素區(qū)堿的大小不冋，導(dǎo)致模型之間不能完全融合，在行人數(shù)量多、姿勢(shì)復(fù)雜

發(fā)表于 03-30 14:09 ?14次下載

晶片表面刻蝕工藝對(duì)碳硅太陽(yáng)能電池特性的影響

引言為了分析不同尺寸的金字塔結(jié)構(gòu)對(duì)太陽(yáng)能電池特性的影響，我們通過(guò)各種刻蝕工藝在硅片上形成了金字塔結(jié)構(gòu)。在此使用一步蝕刻工藝（堿性溶液蝕刻、反應(yīng)離子蝕刻(RIE)和金屬輔助化學(xué)蝕刻）以及兩步蝕刻

發(fā)表于 01-11 14:05 ?1260次閱讀