缘分五月在线影院社区,一二三四日本高清,亚洲福利二区

微軟亞洲研究院視覺計算組又一個令人拍案叫絕的操作：可變形卷積網絡v2版！DCNv2方法簡單，結果更好，在COCO基準測試中比上個版本提升了5個點。

同樣的物體在圖像中可能呈現出不同的大小、姿態、視角變化甚至非剛體形變，如何適應這些復雜的幾何形變是物體識別的主要難點，也是計算機視覺領域多年來關注的核心問題。

去年，微軟亞洲研究院視覺計算組提出了 “Deformable Convolutional Networks”（可變形卷積網絡），首次在卷積神經網絡（CNN）中引入了學習空間幾何形變的能力，得到可變形卷積網絡（Deformable ConvNets），從而更好地解決了具有空間形變的圖像識別任務。

通俗地說，圖像中的物體形狀本來就是千奇百怪，方框型的卷積核，即使卷積多次反卷積回去仍然是方框，不能真實表達物體的形狀，如果卷積核的形狀是可以變化的，這樣卷積后反卷積回去就可以形成一個多邊形，更貼切的表達物體形狀，從而可以更好地進行圖像分割和物體檢測。

研究員們通過大量的實驗結果驗證了該方法在復雜的計算機視覺任務（如目標檢測和語義分割）上的有效性，首次表明在深度卷積神經網絡（deep CNN）中學習空間上密集的幾何形變是可行的。

但這個Deformable ConvNets也有缺陷，例如，激活單元的樣本傾向于集中在其所在對象的周圍。然而，對象的覆蓋是不精確的，顯示出超出感興趣區域的樣本的擴散。在使用更具挑戰性的COCO數據集進行分析時，研究人員發現這種傾向更加明顯。這些研究結果表明，學習可變形卷積還有更大的可能性。

昨天，MSRA視覺組發布可變形卷積網絡的升級版本：Deformable ConvNets v2 (DCNv2)，論文標題也相當簡單粗暴：更加可變形，更好的結果！

論文地址：

https://arxiv.org/pdf/1811.11168.pdf

DCNv2具有更強的學習可變形卷積的建模能力，體現在兩種互補的形式：

第一種是網絡中可變形卷積層的擴展使用。配備具有offset學習能力的更多卷積層允許DCNv2在更廣泛的特征級別上控制采樣。

第二種是可變形卷積模塊中的調制機制，其中每個樣本不僅經過一個學習的offset，而且還被一個學習特征調制。因此，網絡模塊能夠改變其樣本的空間分布和相對影響。

為了充分利用DCNv2增強的建模能力，需要進行有效的訓練。受神經網絡的knowledge distillation這一工作的啟發，我們利用教師網絡來實現這一目的，教師在訓練期間提供指導。

具體來說，我們利用R-CNN作為教師網絡。由于它是訓練用于對裁剪圖像內容進行分類的網絡，因此R-CNN學習的特征不受感興趣區域之外無關信息的影響。為了模仿這個屬性，DCNv2在其訓練中加入了一個特征模擬損失，這有利于學習與R-CNN一致的特征。通過這種方式，DCNv2得到強大的訓練信號，用于增強可變形采樣。

通過這些改變，可變形模塊仍然是輕量級的，并且可以容易地結合到現有網絡架構中。

具體而言，我們將DCNv2合并到Faster R-CNN 和Mask R-CNN 系統，并具有各種backbone網絡。在COCO基準測試上的大量實驗證明了DCNv2相對于DCNv1在物體檢測和實例分割方面都有顯著改進。

我們將在不久后發布DCNv2的代碼。

圖1：常規ConvNet、DCNv1以及DCNv2中conv5 stage最后一層節點的空間支持。

圖3：利用R-CNN feature mimicking的訓練

結果

表4：COCO 2017 test-dev set 中各種backbones上的DCNv2、DCNv1和regular ConvNets的結果。

圖4：在COCO 2017 test-dev set不同分辨率的輸入圖像上，DCNv2和regular ConvNets（Faster R-CNN + ResNet-50 / ResNet-101）的APbbox分數。

表6：DCNv2、DCNv1和regular ConvNets的ImageNet分類準確度。

可以看到，Deformable ConvNets v2的結果相當亮眼！下面，我們精選了兩篇業內對這篇論文的評價，經授權發布：

業界良心DCNV2：方法簡單，結果好，分析充分

知乎用戶Bowen Cheng的評價：

一周前就聽說 Jifeng 組做出了Deformable ConvNet V2（DCNV2），今天 Jifeng 告訴我 paper 已經掛 ArXiv 上之后果斷放下所有事把這篇 paper 好好讀了讀。感覺這個工作特別 solid，果然沒有讓人失望。下面簡單談談個人對這篇 paper 的理解，可能有不對的地方請大家多多指點！

DCNV2 首先用了更好的 visualization 來更深入的理解 DCNV1 為什么 work 以及還存在什么缺陷，發現存在的問題就是因為 offset 不可控導致引入了過多的 context，而這些 context 可能是有害的（[1]和 [2] 中也說明了這些 context 可能是有害的）。

解決方法也很簡單粗暴：

(1) 增加更多的 Deformable Convolution

(2)讓 Deformable Conv 不僅能學習 offset，還能學習每個采樣點的權重（modulation）

(3)模擬 R-CNN 的 feature（knowledge distillation）

(1) 就不用說了，在 DCNV1 中只有 ResNet 的 Conv5 stage 中有 Deformable Conv，在 DCNV2 中把 Conv3-Conv5 的 3x3 convolution 都換成了 Deformable Conv

(2) 在 DCNV1 里，Deformable Conv 只學習 offset：

而在 DCNV2 中，加入了對每個采樣點的權重：

其中是學到的 offset，是學到的權重。這樣的好處是增加了更大的自由度，對于某些不想要的采樣點權重可以學成 0。

(3) [1] 中作者（好吧，其實作者是我）發現把 R-CNN 和 Faster RCNN 的 classification score 結合起來可以提升 performance，說明 R-CNN 學到的 focus 在物體上的 feature 可以解決 redundant context 的問題。但是增加額外的 R-CNN 會使 inference 速度變慢很多。DCNV2 里的解決方法是把 R-CNN 當做 teacher network，讓 DCNV2 的 ROIPooling 之后的 feature 去模擬 R-CNN 的 feature。（圖里畫的很清楚了）

其中 feature mimic 的 loss 定義是：

在 end-to-end train 的時候這個 loss 給了一個 0.1 的 weight。

實驗結果大家看 paper 就好了，在 ResNet-50 backbone COCO 上跟 DCNV1 比漲了 5 個點！這比目前大部分 detection paper 靠東拼西湊漲的那一兩個點要強多了。我驚訝的是和 DCNV1 對比，在 image classification 上也有很大的提升。

說說自己的想法吧，DCNV2 方法簡單，結果好，分析充分，我覺得和近期各種 detection paper 比算是業界良心了。我覺得還有可以學習的一點就是 context 的問題。很多 detection 的 paper 都在引入 context（大家都 claim 說小物體需要引入 context 來解決），其實我個人覺得有點在扯淡，物體小最直接的方法難道不是放大物體來解決嗎？比如 SNIP/SNIPER 都是在 “放大” 物體。所以在 context 這個問題上我（詳情見 [1] 和[2]）跟 Jifeng 他們的看法是一樣的，我們也許不需要那么多沒用的 context。作者都是熟人，我也不多吹了，反正我是準備去 follow 這個工作了哈哈。

最后說說 DCN 有一個小缺點，其實就是速度的問題。因為沒有 cudnn 的加速，DCN 完全是靠 im2col 實現的（從目前的 MXNet 版本來看是這樣的），當 batchsize 大的時候我感覺速度會比有 cudnn 加速的 3x3 conv 慢。很好奇當 batchsize 大的時候（比如 ImageNet）的 training 時間會慢多少。希望以后能和 dilated convolution 一樣被加到 cudnn 里支持吧。

發現好多人好像沒有看過 [1][2]，放張 network 的圖（宣傳一下自己的工作），DCN V2 的 mimic R-CNN 和 DCR V1 的結構類似，但是通過 knowledge distillation 很巧妙的在 inference 階段把 R-CNN 給去掉了。

[1] Revisiting RCNN: On Awakening the Classification Power of Faster RCNN

[2] Decoupled Classification Refinement: Hard False Positive Suppression for Object Detection

創新性與性能雙贏，COCO漲了5個點！

知乎用戶孔濤的評價：

首先祭出結論，這是一篇干貨滿滿，novelty 和 performance 雙贏的 paper（COCO 直接漲了~ 5 個點啊）。

自己一直在做 object detection 相關的工作，再加上之前在 MSRA 跟 Jifeng 及 CV 組的小伙伴共事過一段時間，努力給出客觀的評價吧。

從 Deform ConvNet V1 說起

目標檢測中有一個比較棘手的問題，即所謂的幾何形變問題（Geometric variations）。就拿人檢測來講，人的姿態有多種多樣（想想跳舞的場景），這就需要我們設計的模型具備 deformation 的能力。通常情況下為了解決這類問題有兩種思路：（a) 收集更多樣的數據用于模型的訓練；（b) 設計 transformation invariant 的特征來提升模型多樣化能力。

Deform ConvNet 是在卷積神經網絡的框架下，對 transformation-invariant feature 的比較成功的嘗試。思想非常直觀，在標準的卷積核上加入了可學習的 offset，使得原來方方正正的卷積核具備了形變的能力。

deformable convolution

用過的童鞋其實都知道，在大型的 object detection/instance segmentation 任務上的表現還蠻搶眼的。

Deform ConvNet V2 在干啥

我認為，Deform ConvNet 是在解決如何讓學到的 offset 能更聚焦到感興趣的物體上邊，也就是提取到更聚焦的 feature 來幫助物體的識別定位。在下邊的圖片中，我們當然希望模型的 feature 能夠聚焦到物體上邊，這樣才能提取到更有意義的 supporting feature。

為了做到這一點，作者主要用了幾種策略:

(a) 增加更多的 offset 層，這個不必細說；

(b) 在 deform convolution 中引入調節項 (modulation)，這樣既學到了 offset，又有了每個位置的重要性信息；

(c) Feature Mimicking，作者強調，簡單在對應的 feature 上用 roi-pooling 來提取對應位置的 feature 并不一定能提取到最有用的信息（可能包含無用的 context）。如何才能讓 feature 更加聚焦到物體上呢？解決就是 Mimicking 技術，讓 roi-pooling 之后的 feature 更像直接用 R-CNN 學到的 feature。

其他

除了漂亮的結果，我覺得 paper 的可視化分析部分也挺值得好好看看的。

另外很難理解為什么 Feature Mimicking 在 regular Faster R-CNN 上不 work。

從最近的一些 paper 結果看，至少目前在 deep 的框架下，針對 task，讓模型提取更加有意義的 feature 是個比較熱 / 好的方向吧。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6625

瀏覽量
104313
神經網絡

神經網絡

+關注

關注
42

文章
4779

瀏覽量
101032
計算機視覺

計算機視覺

+關注

關注
8

文章
1700

瀏覽量
46074

原文標題：MSRA視覺組可變形卷積網絡升級！更高性能，更強建模能力

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

加速科技榮獲“浙江省企業研究院”認定

近日，浙江省經濟和信息化廳公布“2024年認定（備案）省級企業研發機構名單”。經過多輪嚴格評審和公示，加速科技榮獲“省企業研究院”認定。這是加速科技繼獲國家級專精特新“小巨人”企業認定榮譽后的又一

發表于 01-07 16:32 ?122次閱讀

加速科技榮獲“浙江省企業<b class='flag-5'>研究院</b>”認定

浪潮信息與智源研究院攜手共建大模型多元算力生態

近日，浪潮信息與北京智源人工智能研究院正式簽署戰略合作協議，雙方將緊密合作，共同構建大模型多元算力開源創新生態。此次合作旨在提升大模型創新研發的算力效率，降低大模型應用開發的算力門檻，推動

發表于 12-31 11:49 ?273次閱讀

微軟在東京開設日本首個研究基地

近日，微軟在東京正式啟用了其日本首個研究基地——微軟亞洲研究院東京分院。作為微軟在全球技術實驗室

發表于 11-19 16:26 ?286次閱讀

天馬與武進南大未來技術創新研究院達成戰略合作

近日，天馬新型顯示技術研究院（廈門）有限公司、上海天馬微電子有限公司與武進南大未來技術創新研究院就Micro LED業務、非顯傳感業務達成戰略合作。

發表于 11-14 11:53 ?419次閱讀

商湯醫療與上海臨床創新轉化研究院簽署戰略合作協議

近日，商湯醫療與上海臨床創新轉化研究院（以下簡稱“臨轉院”）簽署戰略合作協議。

發表于 11-07 14:45 ?432次閱讀

藍思科技將新增昆山創新研究院，重點服務蘋果

藍思科技近日宣布，將新增一個重點研發機構，即藍思昆山創新研究院，目前正在緊鑼密鼓地建設中。該研究院的成立，標志著藍思科技在研發領域的進一步拓

發表于 10-28 16:25 ?365次閱讀

摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

近日，摩爾線程與北京智源人工智能研究院（簡稱：智源研究院）已順利完成基于Triton語言的高性能算子庫FlagGems的適配工作。得益于摩爾線程自研統一系統計算架構MUSA，雙方在短短一

發表于 08-02 11:06 ?940次閱讀

香港城市大學與富士康鴻海研究院成立聯合研究中心

來源：富士康香港城市大學（城大）與鴻海科技集團（富士康）旗下的鴻海研究院共同成立了 "富士康-城大聯合研究中心"。該中心旨在結合產學界的科研力量，推動人工智能、半導體、下一代通訊、信息安全和量子

發表于 06-21 14:37 ?474次閱讀

計算機視覺的主要研究方向

計算機視覺（Computer Vision, CV）作為人工智能領域的一個重要分支，致力于使計算機能夠像人眼

發表于 06-06 17:17 ?1087次閱讀

長沙北斗研究院總部基地正式奠基

長沙北斗研究院總部基地正式奠基日前長沙北斗研究院總部基地正式奠基，項目由長沙北斗研究院牽頭建設；項目又名“北斗足跡”。項目一期預計2025年年底前建成投用。據悉，長沙北斗

發表于 05-16 12:49 ?1247次閱讀

上海浦東軟件園榮獲SAP中國研究院“Bamboo Award”2023獎項

2024年4月，SAP d-com China開發者大會成功舉辦。會上，SAP中國研究院創新生態2.0專家委員會（以下簡稱“專委會”）成員單位上海浦東軟件園獲得SAP中國研究院 “Bamboo Award” 2023獎項，

發表于 05-10 10:20 ?460次閱讀

航天宏圖與天儀研究院合作共同推動遙感衛星數據應用創新

近日，航天宏圖信息技術股份有限公司（以下簡稱“航天宏圖”）與長沙天儀空間科技研究院有限公司（以下簡稱“天儀研究院”）正式簽署戰略合作框架協議。

發表于 04-23 17:11 ?625次閱讀

本源入榜胡潤研究院2024全球獨角獸榜單!

4月9日，胡潤研究院于廣州發布《2024全球獨角獸榜》，榜單列出了全球成立于2000年之后，價值10億美元以上的非上市公司。本源量子成功入圍該榜單，也是中國量子計算領域唯一入榜企業。來源：胡潤

發表于 04-12 08:22 ?508次閱讀

依托廣立微建設的浙江省集成電路EDA技術重點企業研究院正式掛牌

近日，依托廣立微建設的浙江省集成電路 EDA 技術重點企業研究院正式掛牌，成為目前浙江EDA領域唯一的省級重點企業研究院。

發表于 04-03 10:14 ?684次閱讀

浙江圖靈算力研究院向知存科技頒發“年度最具影響力企業獎”

近日，浙江圖靈算力研究院生態伙伴聯誼會在杭州舉行，知存科技作為研究院生態企業之一，與賽迪研究院、中科院計

發表于 03-06 14:02 ?880次閱讀