Ⅰ.介紹
交通場景分割是智能車輛在檢測障礙物、規劃路徑和自主導航中的基本任務。語義分割,也稱為圖像分析或圖像理解[1],旨在將圖像劃分為預定義的非重疊區域并將其轉換為抽象語義信息。近年來,隨著計算機硬件特別是圖形處理單元(GPU)的快速發展,大規模標記數據的出現,深度卷積神經網絡(CNNs)在圖像分類和目標檢測中的應用迅速發展,并已成為當前主流的圖像分割方法。最近,大多數研究都致力于通過使網絡更深更廣來提高語義分割的準確性。然而,增加參數往往以犧牲計算機的內存為代價,并導致網絡速度較慢。因此,如何在保證實時功能的前提下提高準確性是深度學習中最重要的任務之一。
深度傳感器的出現使得可以獲得深度信息,其包含比RGB圖像更多的位置信息。將深度圖應用于圖像語義分割有兩種方法:一種是將原始深度圖像和RGB圖像組合成四通道RGB-D圖像作為CNN輸入[2] - [4];另一種是將包含更豐富深度信息和RGB圖像的圖像分別輸入到兩個CNN中[5] - [7]。具體地,借助于關于深度圖像中提供的對象關系的豐富信息,兩種方法都可以實現比僅使用RGB圖像更好的性能。但是,將數據輸入兩個CNN會增加導致網絡速度變慢的參數數量。因此,在本文中,為了提高精度,將視差、高度和角度圖(DHA)與RGB圖像融合成6通道RGB-DHA圖并直接用作輸入數據。
本文著重于構建一個性能良好的快速功能語義分割網絡,特別是對于駕駛員更關心的道路目標。因此,提出了一種新的網絡架構,然后添加深度圖及其導出的高度和范數角度圖來訓練網絡以獲得更高的精度。主要工作如下:
一個名為D-AlexNet網絡的完全卷積神經網絡是基于AlexNet [8]開發的,它具有一個包含多個卷積層的簡單結構,以提高網絡的前向速度。
D-AlexNet實現2.2x +參考加速,并將參數減少39倍以上。
6通道RGB-DHA地圖可以在語義分割中獲得比僅使用RGB圖像作為輸入更好的結果,尤其是用于識別交通場景中的道路目標,例如行人和汽車。
Ⅱ. 相關工作
A.RGB語義分割
完全卷積網絡(FCN)[9]用卷積層替換傳統神經網絡的最后一個完全連接層,這為FCN應用于語義分割奠定了基礎。由L.C.Chen等人提出的Deeplab [10]通過使用孔算法減小步幅和條件隨機場來微調網絡獲得了更好的結果。 SegNet [11],[12]通過使用編碼器 - 解碼器結構從較高層恢復具有來自較低層的空間信息的特征圖來實現像素級語義分割。在[13],[14]中,使用多尺度特征集合來提高性能。 PSPNet [15]通過聚合上下文信息來完成預測。
在現有硬件上實時執行分段。一些方法已被用于加速網絡。 SegNet [12]通過減少網絡中的層數來提高前向速度。 A. Chaurasia等。 [16]直接將編碼器塊鏈接到相應的解碼器以減少處理時間。 Z. Hengshuang等[17] 提出了基于壓縮PSPNet的圖像級聯網絡,該網絡在適當的標簽指導下包含多分辨率分支,以產生實時推斷。
B.具有深度信息的語義分割
與單個RGB圖像相比,深度圖包含更多位置信息,這有利于語義分割。在[18]中,原始深度圖像被簡單地視為單通道圖像,然后應用CNN來提取室內語義分割的特征。在[5]中,深度信息被用作三個通道:水平視差、地面高度和范數角。Qi等人 [19]提出了一個3D圖形神經網絡(3DGNN),它建立了k-最近鄰圖,并最終提升了預測。上述工作證明,使用更多特征信息作為訓練網絡的輸入有助于提高語義分割的準確性。
III.網絡體系結構
一般而言,使用更深層的網絡結構將得到更好的語義分割,盡管它通常以犧牲具有許多訓練參數和更長的運行時間為代價,這不能滿足智能駕駛的實時要求。為了直觀地解決這個問題,我們認為減少網絡參數和簡化網絡模型可以加速網絡,而且,添加深度信息可以提高網絡性能。由AlexNet [8]和N. Hyeonwoo [20]提出的基于VGG16網絡的編碼器 - 解碼器網絡架構的推動,我們提出的深度完全卷積神經網絡架構如圖1所示,包括11個卷積層、3個匯集層、3個上采樣層和1個softmax層。
在新的網絡結構中,AlexNet通過以下方式進行修改,使其適用于像素級語義分段任務:
為了使網絡適應不同大小的圖像,刪除了AlexNet的完整連接層。然后,第一卷積層的步幅從4變為1,最大匯集層的內核大小從3×3變為2×2。
實驗結果表明,卷積層中包結構的存在不能提高最終語義分割的準確性。因此,我們刪除了第二、第四和第五卷積數據包并刪除了兩個LRN層。
內部協變量的存在將增加深度網絡訓練的難度。 本文在每個卷積層和ReLU層之間添加了批量歸一化層來解決這個問題。
所有卷積層的卷積核被統一為3×3大小,卷積核輸出的數量為96。
參考Z.D.Matthew等人使用的上采樣方法[21],我們在匯集過程中記錄每個匯集窗口的最大特征值位置,并將其置于上采樣過程中的相應位置。解碼器是編碼器的鏡像結構,除了其內核大小為1×1的第六個卷積層。解碼器網絡的輸出是K個特征映射,然后將其饋送到softmax層以產生K通道類概率圖,其中K是類的數量。分割的結果是圖像的每個像素對應于具有最大預測概率的類。
Ⅳ.多特征地圖
與使用原始深度信息學習深度網絡相比,DHA圖像可以包含更豐富的圖像特征信息。該過程包括以下步驟。
A.水平視差圖
從Cityscapes數據集獲得的左圖像和右圖像可用于生成具有立體匹配算法的視差圖。根據匹配程度,立體視覺匹配算法可以分為三類:局部匹配算法、半全局匹配算法和全局匹配算法。全局匹配算法獲得最高的匹配精度和最差的實時性能。局部匹配算法是最快的,但其匹配精度非常低。
圖1. D-AlexNet網絡的結構
半全局匹配算法可以更好地匹配精度和實時計算需求,因此本文選擇此方法來獲取視差圖。
M. Dongbo [22]提出的邊緣保持平滑方法用于通過優化粗略視差圖并使視差值更連續來提高分割精度。
B. 地面以上的高度
基于所獲得的視差圖,可以通過等式(1)和(2)獲得對應于圖像坐標系中的P'(u,v)像素的世界坐標系中的P(x,y,z)點,
其中x和y是世界坐標系中點P的坐標,z是點P和相機之間的距離,f和b分別是攝像機的焦距和兩個攝像機的基線長度,fy和Cy是相機的內部參數,y是像素的高度。由于攝像機的安裝不能保證與地平面完全平行,因此需要進行校正。選擇視差圖中的地面區域的一部分,并且使用最小二乘法來擬合地面。通過假設擬合的地平面方程是Y = aX + bZ + c,a,b和c的值可以通過等式(3)獲得。在校正地之后,可以通過等式(4)獲得實際像素高度。
在高度圖中,天空、建筑物和樹對應于較大的高度值,而諸如車輛和行人的較重要的對象對應于相對較小的高度值。為了突出重要目標,使用等式(5)來變換對應于每個像素的高度值,以生成高度值在0到255之間的高度圖像。
C.曲面法線
對于城市交通場景,一般來說,路面是水平的,物體的表面,如建筑物、交通標志、車輛等是垂直的。根據這些特征,可以使用算法在盡可能多的點上找到與局部估計的表面法線方向最對齊或最正交的方向。因此,為了利用這種結構,由G . Saurabh等人提出的算法[ 5 ]用于確定重力方向。
最后,通過計算像素法線方向和預測重力方向之間的角度,可以獲得所需的角度信息。
V. 實驗與分析
實驗是在Caffe學習平臺上進行的。此外,我們的所有實驗都是在表I所示的軟件和硬件上進行的。
A.數據集和評估指標
我們將我們的系統應用于最近的城市場景理解數據——城市風景,其中包含5000幅精細和20000幅粗注釋圖像。此外,數據集提供由立體相機捕獲的左視圖和右視圖,從而提供獲得視差圖和深度圖的機會。在這篇論文中,選擇了5000幅經過精細注釋的圖像,并將其分成訓練、驗證和測試集。這些集合分別包含2,975,500和1,525幅圖像。圖像大小被轉換為200×400,以縮短訓練時間并減少內存消耗。為了標記重要的交通信息,交通場景分為11種類別包括道路、道路邊界、建筑物、電線桿、交通標志、樹木、草坪、天空、人、汽車、自行車或摩托車,全局準確率和網絡轉發時間都被用于評估。
B.訓練過程
在訓練過程中,卷積層的權重以與AlexNet相同的方式初始化,以及H.Kaiming等人使用的方法[23]用于初始化批量標準化層的重量。交叉熵被用作訓練網絡和計算損失值的損失函數。在反向傳播階段,采用隨機梯度下降來優化網絡權重。初始學習率和動量分別設定為0.01和0.9。另外,將重量衰減設定為0.0005以防止網絡過度擬合。值得注意的是,為了保持數據的純度并簡化培訓過程,我們在沒有數據增加的情況下訓練我們的網絡,并且沒有使用其他數據集的預訓練模型。
對于每300個培訓時間,我們對驗證集進行了準確性評估并保存了快照。基于RGB-DHA圖像的驗證準確度,訓練損失值曲線如圖2所示。更多迭代可能意味著更高的準確度。但是,當準確度和損失開始收斂時,停止訓練是可行的。因此,對網絡進行了10000次迭代訓練,選擇具有最高精度的Caffe模型作為最終用于場景分割的模型。
圖2.不同網絡的訓練損失和準確度曲線。
C.比較和分析
我們首先評估了我們提出的網絡如何有效地加速語義分割,將SegNet [11]和SegNet-basic [12]作為基線。當將RGB圖像和RGB-DHA圖像作為輸入數據時,網絡的性能結果如表II所示。我們提出的網絡結構比SegNet快2.2倍,比SegNet-basic快1.8倍。從圖2和表II中我們可以發現,我們提出的架構可以通過競爭性分段結果獲得更好的實時結果。此外,對于每個網絡幀,使用RGB-DHA圖像獲得的驗證精度高于使用RGB圖像獲得的驗證精度,這也表明更多特征信息對于改善網絡性能是有用的。
圖3.測試集中的語義分段結果示例
為了進一步了解每個特征圖中的效率增益,我們首先將從第4節獲得的三個特征圖與RGB圖像合并為4通道圖像,然后將所有3個特征圖像與RGB圖像合并為6通道圖像。之后,4通道和6通道圖像都被用作訓練網絡的輸入數據。測試結果如表Ⅲ所示,從中可以得出結論:與基于3通道圖像的圖像相比,基于4通道和6通道圖像的分割精度明顯提高。在相同的訓練參數下,從RGB-D,RGB-H,RGB-A和RGB-DHA圖像獲得的全局精度比從原始RGB圖像獲得的全局精度分別為3.7%、2.1%、3%和4%。 以RDB-DHA 6通道圖像為輸入,我們提出的系統最終實現了73.4%的分割精度。
圖3顯示了我們的網絡模型的測試集上的語義分段結果,分別以3通道,4通道和6通道作為輸入。如圖所示,基于RGB圖像獲得的分割結果有時是粗糙的,并且在道路上或在不同類別的邊界輪廓周圍存在許多錯誤分類的像素。例如,在圖3(b)的左圖中,路面中的許多像素被錯誤分類為人行道。基于四通道圖像的效果通常比基于RGB三通道圖像的效果更好,并且RGB-DHA圖像可以進一步提高分割精度,其顯示更少的錯誤分類點。
此外,當使用RGB-DHA圖像作為凈輸入時,諸如行人和汽車的道路目標比使用RGB圖像作為凈輸入具有更高的分段精度。例如,行人段準確度從79%上升到84%,汽車段精度從85.8%上升到91%。一些細節比較如圖4所示。可以看出,圖4(c)和圖4(f)中的行人和汽車具有比圖4(b)和圖4(e)更清晰的輪廓,這將有助于不同道路目標的行為分析。
圖4.行人和汽車的詳細比較示例。
VI.結論
本文提出了一種基于新型深度完全卷積網絡(D-AlexNet)和多特征映射(RGB-DHA)的交通場景語義分割方法。對于Titan X GPU上的每個400×200分辨率圖像,網絡可以實現22ms的良好實時性能。從原始RGB圖像獲得視差圖、高度圖和角度圖,并融合成6通道圖像以訓練網絡。實驗表明,與使用RGB圖像作為輸入相比,使用多特征圖作為網絡的輸入可以實現4%更高的分割精度。在未來,我們將重點關注更高效的深度網絡,以聯合語義分割,目標跟蹤和參數識別。
-
gpu
+關注
關注
28文章
4768瀏覽量
129225 -
深度學習
+關注
關注
73文章
5512瀏覽量
121413
原文標題:基于多特征地圖和深度學習的實時交通場景分割
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論