作者:周蘇,支雪磊,劉懂,寧皓,蔣連新,石繁槐
PVANet(performance vs accuracy network)卷積神經網絡用于小目標檢測的檢測能力較弱。針對這一瓶頸問題, 采用對PVANet網絡的淺層特征提取層、深層特征提取層和HyperNet層(多層特征信息融合層)進行改進的措施, 提出了一種適用于小目標物體檢測的改進PVANet卷積神經網絡模型, 并在TT100K(Tsinghua-Tencent 100K)數據集上進行了交通標志檢測算法驗證實驗。結果表明, 所構建的卷積神經網絡具有優秀的小目標物體檢測能力, 相應的交通標志檢測算法可以實現較高的準確率。
計算機目標檢測是指計算機根據視頻、圖像信息對目標物體的類別與位置的檢測, 是計算機視覺研究領域的基本內容。隨著硬件和軟件技術的發展, 尤其是基于卷積神經網絡目標檢測算法的普及應用, 計算機目標檢測的準確率及速度都有了很大提高[1]。而且, 異于傳統的人工設計特征提取器, 卷積神經網絡目標物體檢測可自主學習視頻、圖像信息中的特征, 從而檢測到更多類別以及更細分類的物體[2]。小目標檢測主要是對圖像或視頻中的標志、行人或車輛等顯示尺寸較小的目標進行檢測, 在民用、軍事和安防等領域具有十分重要的作用[1]。
近年來卷積神經網絡結構及目標檢測算法被廣泛應用, 如用于手寫數字識別的LeNet(lecun network)[3]、用于圖像分類的VGGNet(visual geometry group network)、GoogLeNet(Google network)及ResNet(residual network)等[4], 用于目標檢測的Faster R-CNN(faster region-based convolutional neural network)、R-FCN(region-based fully convolutional network)、YOLO(you-only-look-once)和SSD(single shot detector)等[5-7]。但是, 當檢測圖像中目標物體很小時, 主流卷積神經網絡的檢測能力仍然較弱, 這是其在目標檢測應用方面的主要瓶頸問題之一。吳雙忱等[8]基于SEnet(Squeeze-and-Excitation network)提出了一種解決紅外小目標檢測問題的深度卷積網絡。趙慶北等[9]對Faster R-CNN網絡進行改進, 引入候選區域方案提高了公司徽標的檢測性能。彭小飛等[10]對原始FPN(feature pyramid network)網絡進行改進, 利用淺層網絡豐富的位置信息, 進行小目標的全圖搜索檢測。梁華等[11]針對航拍小目標識別率低、定位差的問題, 基于VGG16網絡進行改進, 提高其實時性和精度性能.PVANet網絡具有訓練效率高、對不同尺度目標的適應性強等適合于復雜多變交通場景的優勢。本研究工作對PVANet(performance vs accuracy network)網絡進行改進, 解決其交通標志小目標檢測能力不足的問題。
1 相關工作
各國交通標志都有其規定的顏色、形狀、圖案等特征, 采用傳統的手工設計特征提取器, 可以從圖像中提取特征信息進行交通標志檢測.Ritter等[12]采用圖像顏色組合檢測交通標志, 在紅、綠和藍色(RGB)中引入查表法(LUT)消除不需要的顏色.Priese等[13]設計了用于顏色分割的顏色結構代碼(CSC), 并且生成CSC數據庫。研究結果表明, 道路標志顏色的RGB分量差異雖可用于目標分割和檢測, 但不便于直接描述光照變化。因此, 人們開始研究由色調、飽和度和強度(HSI)或者色調、飽和度等組成的顏色特征空間下的交通標志檢測[14]。其中, HSI因其模擬人類感知的能力優于RGB, 其交通標志檢測應用效果更好。 Zaklouta等[15]結合HOG(histogram of oriented gradients)描述符和線性SVM(support vector machine)算法在處理實時性要求和性能之間取得了良好的折衷。
手工設計特征提取方法對圖像特征的提取能力有限, 交通標志檢測應用效果很大程度上取決于設計者經驗, 因此不適用于大規模交通標志檢測。神經網絡具有學習非線性、復雜關系的能力[16], 尤其是卷積神經網絡可自主學習圖像特征, 越來越多地被用于交通標志檢測.Sermanet等[17]用卷積網絡從GTSRB數據集(德國交通標志檢測數據集)的彩色圖像中提取并學習交通標志的特征信息, 檢測準確率高達98.97%.Aghdam等[18]提出一種新的ReLU(rectified linear unit)作為激活函數的CNN(convolutional neural network)架構, 實現了更佳的精確度和檢測時間。
2 PVANet網絡結構與改進
2.1 PVANet網絡簡介
PVANet[19]是Intel公司Kim等人在2016年提出的一種用于實時物體檢測的卷積神經網絡結構。在VOC(visual object classes)[20-21]數據集物體檢測比賽項目上PVANet取得了第2名的成績, 其平均準確率(mAP)為82.5%.
PVANet采用基于C.ReLU(concatenated rectified linear unit)激活函數的淺層特征提取方法, 改善參數冗余問題, 減小了網絡參數量, 提高了訓練效率.PVANet還借鑒Inception(谷歌基礎神經元結構思想), 將輸入分別通過4個不同的卷積核進行卷積和池化操作后串聯合并在一起, 增加了網絡對不同尺度目標的適應性。另外, PVANet將conv3中原圖的1/8、1/16和1/32特征圖連接起來, 增強了最終特征圖中的多尺度信息。
2.2 PVANet網絡結構的改進
PVANet網絡進行目標檢測時, 雖然其準確率和實時性較好, 但針對小目標物體的檢測能力仍有很大的提升空間。對此, 本文提出了更適用于小目標物體檢測的改進網絡結構, 對淺層特征提取層、深層特征提取層和HyperNet層進行了改進。圖 1是改進前PVANet網絡結構(圖 1a)與改進后結構(圖 1b)的對比, 其中虛線邊框模塊為本文提出的改進模塊。詳細的改進后PVANet網絡信息見表 1.
注: conv i—第i級卷積; pool—池化; RPN—region proposal network; FC— fully connected layer
圖 1 PVANet網絡改進前后結構圖
Fig.1 Structure of PVANet before and after improvement
2.2.1 淺層特征提取
PVANet網絡的第1層卷積層通常采用7×7或更大維度的卷積核(步長為2)進行卷積, 同時在本層即采用了C.ReLU型激活函數, 這樣可以避免淺層卷積濾波器的參數冗余問題。
與單個的7×7或更大維度的卷積核相比, 采用多個3×3卷積核的組合, 可以減少參數量并加快檢測速度, 同時增強網絡的非線性表達能力。另外, C.ReLU激活函數雖然具有提高參數效率、避免淺層卷積濾波器參數冗余的優點, 但是特征圖經過C.ReLU處理后輸出維度會增加一倍。因此, 目前PVANet使用C.ReLU時通常對輸入特征圖的維度加以限制, 如設定conv1卷積模塊的輸出期望維度為32, 第1層卷積層的輸出維度必須限定為16.對于較大圖片來說, 這樣的設計會限制淺層網絡提取特征的能力, 致使圖像的細粒度和小目標特征信息部分丟失。
鑒于上述原因, 本文提出將PVANet第1層卷積層中7×7維度的卷積核拆解成3層3×3維度的卷積層。其中, 第1層卷積層使用普通的ReLU激活函數, 將其輸出維度提高至24;第2層卷積開始使用C.ReLU激活函數, 輸出維度增加至48;第3層卷積層輸出維度減小至32.這樣的結構改進(圖 2)旨在增加淺層卷積濾波器的細粒度和小目標圖像特征的提取能力。此外, 為增強改進效果, 將conv 2和conv 3卷積模塊中每個子模塊中第1層卷積層的輸出維度增大至48和72, 如表 1所示。
圖 2 淺層特征提取卷積層改進示意圖
Fig.2 Improvement of shallow feature extraction
2.2.2 深層特征提取
PVANet網絡通常采用Inception v1模塊進行深層特征提取。在該模塊中, 將5×5的卷積核分解為兩個3×3維度的卷積核, 可以減小網絡模型的參數量, 但是會發生一定程度的精度損失。為了克服這一不足, 在進行上述卷積核分解的同時, 本文將3×3卷積核進一步非對稱地分解成兩個1×3和3×1維度的卷積核。這樣的非對稱分解(圖 3)不僅進一步減少了網絡的參數量, 而且通過層數增加有望進一步提高網絡的非線性表達能力。
圖 3 非對稱1×3和3×1維度卷積核的卷積過程
Fig.3 Convolution process of asymmetric 1×3 and 3×1 dimensional convolution kernels
2.2.3 多層特征信息融合
在原版PVANet網絡中, conv 3_4淺層卷積層輸出的132×80像素特征圖的下采樣處理是通過3×3池化層進行的, 最后的conv5_4深層卷積層輸出的33×20特征圖的上采樣處理則通過4×4像素卷積核進行。兩者得到的特征圖大小相同(66×40像素), 合并之后作為目標檢測和分類的依據。但是, 相比輸入圖片, 這一系列66×40像素特征圖已經縮小了16倍。如果輸入圖片中存在一個32×32像素描述的小目標, 映射到最后的特征圖上就只有2×2個像素點信息。原版PVANet網絡的多層特征信息融合方式使得小目標的特征表征能力受到限制, 難以準確識別圖像中的小目標。
因此, 本文提出減少1次池化和相應的卷積特征提取, 使網絡能融合更淺層卷積層輸出的特征圖信息, 并在更大的132×80特征圖上進行目標檢測和分類(即只縮小8倍), 使其對小目標有更強的檢測能力。
3 實驗
3.1 實驗條件與方法
采用TT100K[22]交通標志數據集作為改進網絡訓練和測試用的基準數據集, 其中訓練集包括10 380張圖片, 測試集包括5 229張圖片。兩個子集覆蓋了所有需要檢測的標志類別, 并且圖像數據互不包含。
訓練所用的求解器為SGD(stochastic gradient descent), Batch Size為1, 起始學習率設置為0.01, 之后根據數據集的大小和Batch Size采用每40 000步減小0.1倍的方法, momentum和weight decay分別設置為0.9和0.000 2.
研究中所有深度學習算法的訓練和測試全部使用了Caffe深度學習框架, 并且在一臺配備了Intel i7-5930K CPU和NVIDIA Titan X GPU的工作站上進行, 操作界面采用Python軟件實現。
3.2 實驗結果與分析
在實驗過程中, 分別使用原版PVANet網絡模型結構及加入本文所述各改進算法的PVANet網絡模型結構, 在TT100K測試集上進行交通標志檢測, 以準確率、單幀檢測時間和PR(precision-recall)曲線作為評價指標。實驗結果見表 2和圖 4.
圖 4 算法改進前后PR曲線對比圖
Fig.4 Comparison of PR curve
由表 2可以看出, 與PVANet 9.1在數據集上的檢測結果相比, 采用2.2.1節改進算法可以將交通標志檢測的mAP提升約4.2%.可知, 提高淺層神經網絡的通道數, 可以提高網絡對交通標志小目標的檢測能力。此外, 由于將大的7×7卷積核分解為多個小的3×3卷積核, 以減少計算量, 改進后網絡模型的檢測時間無明顯增加。采用2.2.1、2.2.2節所述的改進算法, 即再將深層網絡中的5×5卷積替換為兩個1×3和3×1卷積, 也會使網絡模型的檢測速度變快, 同時能夠保持較高的mAP.最后, 采用2.2節中的改進算法, 再減小1次池化計算, 將神經網絡的輸出特征圖增大一倍, 使得網絡對交通標志檢測的mAP大幅提高約9%, 網絡的檢測時間雖然增加約0.02 s, 但是仍然具有很好的實時性, 滿足交通標志檢測要求。由圖 4可知, 改進后算法的準確率和召回率都有所提升。綜上所述, 輸出更大的特征圖雖然使計算量有所增加, 但可增強網絡的特征表達能力, 大幅增加網絡的目標檢測準確率。
圖 5是算法對小目標交通標志檢測的效果圖, 其中存在一個超小且被遮擋的交通標志(圖 5b標注所示)。圖 5a為原版PVANet網絡模型檢測結果, 圖 5b為改進后PVANet網絡模型檢測結果??梢?, 改進后PVANet網絡對于交通標志小目標物體有著很好的檢測能力, 且對于目標物體的被遮擋問題有著一定的魯棒性。
圖 5 改進前后PAVNet檢測效果對比圖
Fig.5 Comparison of detection before and after improvement
圖 6是圖 5場景經算法模型卷積計算得到的中間層特征圖??梢钥闯?, 淺層特征圖側重圖像宏觀特征的提取, 因此與原圖風格相近, 而深層特征圖側重對細節像素的計算判斷, 對交通標志的準確檢測更為關鍵。對比算法改進前后的效果可以看到, 改進后算法在正確的交通標志區域呈現出代表敏感性的更亮色, 具有更好的檢測效果。
圖 6 改進前后淺層和深層卷積層特征對比圖
Fig.6 Comparison of shallow and deep convolutional layers
圖 7是改進算法對于有更多超小目標交通標志圖像的更復雜交通場景的檢測效果, 其中圖 7a是原圖, 圖 7b和圖 7c分別是改進前和改進后算法檢測結果的局部放大圖。該場景共有5個交通標志, 原版PVANet只檢測到3個交通標志, 改進后算法可檢測到所有5個交通標志。由此可見, 改進算法具有更好的檢測效果。
圖 7 檢測效果對比圖
Fig.7 Comparison of experimental results
TT100K數據集中的部分交通標志屬于小目標物體, 通過本研究中基于此數據集的實驗, 驗證了所提出的改進算法對于交通標志小目標具有優秀的檢測能力。分析其原因, 由于淺層神經網絡感知野(perception field)較小, 主要負責網絡的細節特征提取, 增加淺層網絡通道數, 能夠使網絡提取更多細節信息, 這對交通標志小目標的檢測是有利的。而減小一次池化計算, 不僅增大網絡輸出的特征圖大小, 也使網絡模型中HyperNet模塊融合的淺層特征圖更“淺”, 這樣神經網絡就能夠提取圖片中更多的細節特征信息, 提高網絡的小目標檢測能力。雖然經過多步改進后, 所提出改進算法的檢測時間有一定增加, 但總時間仍控制在0.09 s內, 具有很高的實時性。
4 結論
PVANet網絡具有訓練效率高、對不同尺度目標的適應性強等適合于復雜多變交通場景應用的優勢。本文對其淺層特征提取、深層特征提取和HyperNet多層特征融合模塊分別進行改進, 提出了一種改進的PVANet卷積神經網絡模型, 克服了小目標交通標志識別的瓶頸難點?;赥T100K交通標志數據集, 對改進算法進行了實驗驗證。結果表明, 所提出的改進網絡模型與原網絡模型相比, 交通標志小目標檢測的mAP有大幅提升, 證明了其對小目標物體優秀的檢測能力; 雖然檢測時間小幅上升, 但仍具有較好的實時性。
參考文獻[1]劉曉楠, 王正平, 賀云濤, 等。 基于深度學習的小目標檢測研究綜述[J]。 戰術導彈技術, 2019(1): 100
LIU Xiaonan, WANG Zhengping, HE Yuntao, et al. Research on small target detection based on deep learning[J]。 Tactical Missile Technology, 2019(1): 100
[2]郭之先?;诰矸e神經網絡的小目標檢測[D]。南昌: 南昌航空大學, 2018.
GUO Zhixian. Small object detection algorithm based on deep convolution neural network[D]。 Nanchang: Nanchang Hangkong University, 2018.
[3]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]。 Proceedings of the IEEE, 1998, 86(11): 2278 DOI:10.1109/5.726791
[4]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.
[5]REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]。 IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137
[6]LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[7]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.
[8]吳雙忱, 左崢嶸。 基于深度卷積神經網絡的紅外小目標檢測[J]。 紅外與毫米波學報, 2019, 38(3): 371
WU Shuangchen, ZUO Zhengrong. Small target detection in infrared images using deep convolution neural networks[J]。 Journal Infrared Millimeter Waves, 2019, 38(3): 371
[9]趙慶北, 元昌安, 覃曉。 改進Faster R-CNN的小目標檢測[J]。 廣西師范學院學報(自然科學版), 2018, 35(2): 68
ZHAO Qingbei, YUAN Chang‘an, QIN Xiao. Improved faster R-CNN for small object detection[J]。 Journal of Guangxi Teachers Education University (Natural Science Edition), 2018, 35(2): 68
[10]彭小飛, 方志軍。 復雜條件下小目標檢測算法研究[J]。 智能計算機與應用, 2019, 9(3): 171
PENG Xiaofei, FANG Zhijun. Research on small target detection algorithm under complex conditions[J]。 Intelligent Computer and Applications, 2019, 9(3): 171 DOI:10.3969/j.issn.2095-2163.2019.03.040
[11]梁華, 宋玉龍, 錢鋒, 等。 基于深度學習的航空對地小目標檢測[J]。 液晶與顯示, 2018, 33(9): 793
LIANG Hua, SONG Yulong, QIAN Feng, et al. Detection of small target in aerial photography based on deep learning[J]。 Chinese Journal of Liquid Crystals and Displays, 2018, 33(9): 793
[12]RITTER W, STEIN F, JANSSEN R. Traffic sign recognition using color information[J]。 Math Compute Model, 1995, 22(4/5/6/7): 149
[13]PRIESE L, KLIEBER J, LAKMANN R, et al. New results on traffic sign recognition[C]//Proceedings of the Intelligent Vehicles’94 Symposium. Paris: IEEE, 1994: 249-254.
[14]MOGELMOSE A, TRIVEDI M M, MOESLUND T B. Vision-based traffic sign detection and analysis for intelligent driver assistance systems: perspectives and survey[J]。 IEEE Transactions on Intelligent Transportation Systems, 2012, 13(4): 1484 DOI:10.1109/TITS.2012.2209421
[15]ZAKLOUTA F, STANCIULESCU B. Real-time traffic sign recognition in three stages[J]。 Robotics and Autonomous Systems, 2014, 62(1): 16
[16]SABBEH A, AI-DUNAINAWI Y, AI-RAWESHIDY H S, et al. Performance prediction of software defined network using an artificial neural network[C]//2016 SAI Computing Conference (SAI)。 London: IEEE, 2016: 80-84.
[17]SERMANET P, LECUN Y, Traffic sign recognition with multiscale convolutional networks[C]//The 2011 International Joint Conference on Neural Networks. San Jose: IEEE, 2011: 2809-2813.
[18]AGHDAM H H, HERAVI E J, PUIG D. A practical approach for detection and classification of traffic signs using convolutional neural networks[J]。 Robotics and Autonomous Systems, 2016, 84: 97 DOI:10.1016/j.robot.2016.07.003
[19]KIM K H, CHEON Y, HONG S, et al. PVANet: deep but lightweight neural networks for real-time object detection[J]。 arXiv, 2016(8): 1
[20]EVERINGHAM M, ESLAMI S M A, GOOL L V, et al. The pascal, visual object classes challenge: a retrospective[J]。 International Journal of Computer Vision, 2015, 111(1): 98 DOI:10.1007/s11263-014-0733-5
[21]RUSSAKOVSKY O, DENG Jia, SU Hao, et al. ImageNet large scale visual recognition challenge[J]。 International Journal of Computer Vision, 2015, 115(3): 211 DOI:10.1007/s11263-015-0816-y
[22]ZHU Zhe, LIANG Dun, ZHANG Songhai, et al. Traffic-sign detection and classification in the wild[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2110-2118.
編輯:hfy
評論
查看更多