自動(dòng)駕駛中的環(huán)境感知傳統(tǒng)上采用傳感器融合的方法,將安裝在汽車上的各種傳感器的目標(biāo)檢測(cè)組合成單一的環(huán)境表征。未經(jīng)校準(zhǔn)的傳感器會(huì)導(dǎo)致環(huán)境模型中的偽像和像差,這使得像自由空間探測(cè)這樣的任務(wù)更具挑戰(zhàn)性。在本研究中,我們改進(jìn)了Levinson和Thrun的LiDAR和相機(jī)融合方法。我們依靠強(qiáng)度不連續(xù)性以及邊緣圖像的侵蝕和膨脹來(lái)增強(qiáng)對(duì)陰影和視覺(jué)模式的魯棒性,這是點(diǎn)云相關(guān)工作中反復(fù)出現(xiàn)的問(wèn)題。此外,我們使用無(wú)梯度優(yōu)化器而不是窮舉網(wǎng)格搜索來(lái)尋找外部校準(zhǔn)。因此,我們的融合管道重量輕,能夠在車載計(jì)算機(jī)上實(shí)時(shí)運(yùn)行。對(duì)于檢測(cè)任務(wù),我們修改了快速R - CNN架構(gòu),以適應(yīng)混合LiDAR -攝像機(jī)數(shù)據(jù),從而改進(jìn)目標(biāo)檢測(cè)和分類。我們?cè)贙ITTI數(shù)據(jù)集和本地收集的城市場(chǎng)景上測(cè)試我們的算法。
自動(dòng)駕駛汽車依靠各種傳感器來(lái)感知環(huán)境。為了建立他們周圍世界的一致模型,并在其中安全地工作,需要融合不同傳感器的數(shù)據(jù)[1]。每種類型的傳感器都有自己的優(yōu)點(diǎn)和缺點(diǎn)[ 2 ]。RGB攝像機(jī)能夠感知來(lái)自周圍世界的顏色和紋理信息,并能很好地完成目標(biāo)分類任務(wù),然而,它們的探測(cè)范圍有限,在有限的光照或惡劣的天氣條件下表現(xiàn)不佳。LiDARs提供精確的距離信息,其范圍可以超過(guò)100米,并且能夠探測(cè)到小物體。它們?cè)谝归g也能很好地工作,但不提供顏色信息,而且在大雨中它們的性能會(huì)下降[3][4]。雷達(dá)提供精確的距離和速度信息,在惡劣天氣條件下工作良好,但分辨率較低[5]。
如今,高級(jí)融合( HLF )是一種非常流行的傳感器融合方法,[ 1 ]。HLF分別用每個(gè)傳感器檢測(cè)對(duì)象,并隨后組合這些檢測(cè)。因此,對(duì)象檢測(cè)是在可用信息有限的地方進(jìn)行的,因?yàn)槿绻嬖诙鄠€(gè)重疊對(duì)象和工件,則HLF會(huì)丟棄置信值較低的分類。相反,低級(jí)融合(LLF)在原始數(shù)據(jù)級(jí)別結(jié)合了來(lái)自不同傳感器類型的數(shù)據(jù),從而保留了所有信息,并潛在地提高了目標(biāo)檢測(cè)的準(zhǔn)確性。
LLF本質(zhì)上是復(fù)雜的,伴隨著幾個(gè)挑戰(zhàn),需要對(duì)傳感器進(jìn)行非常精確的外部校準(zhǔn),以正確融合傳感器對(duì)環(huán)境的感知。此外,傳感器記錄需要時(shí)間同步并補(bǔ)償自我運(yùn)動(dòng)。然后,多模態(tài)輸入數(shù)據(jù)可以用于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)。融合和檢測(cè)算法都必須能夠在公路駕駛場(chǎng)景中實(shí)時(shí)運(yùn)行。近年來(lái),LLF以其潛在的優(yōu)勢(shì)引起了人們的關(guān)注。例如,Chen等人。[6]發(fā)展了一種用于LiDAR和攝像機(jī)數(shù)據(jù)的融合方法,這種方法在Kitti數(shù)據(jù)集的三維定位和三維檢測(cè)方面優(yōu)于現(xiàn)有的方法[7]。
LevinsonandThrun[8]提出了一種用于LiDAR和攝像機(jī)外部標(biāo)定的算法,但不使用融合的數(shù)據(jù)進(jìn)行目標(biāo)檢測(cè)。Geiger等人提出了一種基于三維目標(biāo)標(biāo)定的方法。[9]在同一場(chǎng)景中使用多個(gè)棋盤,并使用帶有距離傳感器或Microsoft Kinect的三目相機(jī)。對(duì)于我們的LLF方法,我們改進(jìn)了LevinsonandThrun[8]的外部LiDAR相機(jī)標(biāo)定方法,我們將沖蝕和膨脹應(yīng)用于反距離變換的圖像邊緣,發(fā)現(xiàn)這些形態(tài)平滑了目標(biāo)函數(shù),提高了對(duì)場(chǎng)景中陰影和其他視覺(jué)模式的魯棒性。
定性的COM-Parison之間的方法和Kitti提供的外部SiC校準(zhǔn)表明,我們的方法產(chǎn)生了一個(gè)更好的視覺(jué)擬合。此外,我們用無(wú)梯度優(yōu)化算法代替了對(duì)變換參數(shù)的窮舉網(wǎng)格搜索。我們將LiDAR點(diǎn)云投影到RGB圖像上,對(duì)其進(jìn)行采樣,然后從中提取特征。我們采用了更快的R - CNN架構(gòu)[10]來(lái)處理融合的輸入數(shù)據(jù)。結(jié)果表明,使用融合的LiDAR和攝像機(jī)數(shù)據(jù)改善了Kitti數(shù)據(jù)集[ 7 ]上的目標(biāo)檢測(cè)結(jié)果。我們的傳感器融合算法能夠以10Hz的頻率實(shí)時(shí)運(yùn)行。此外,我們展望了激光雷達(dá)和雷達(dá)之間外部校準(zhǔn)的新方法。
其余的工作安排如下。在第Ⅱ節(jié)中,我們概述了相關(guān)工作。在第III節(jié)中,我們推導(dǎo)了我們的算法。首先,我們討論了LiDAR與攝像機(jī)的融合;隨后,我們提出了我們對(duì)更快的R-CNN架構(gòu)的修改,以利用融合的數(shù)據(jù)。在第Ⅳ節(jié)中,討論了我們的結(jié)果,最后對(duì)今后的工作進(jìn)行了總結(jié)和展望。
Ⅱ.相關(guān)工作
相機(jī)和LiDAR之間外部校準(zhǔn)的計(jì)算通常依賴于預(yù)先定義的標(biāo)記,如棋盤或AR標(biāo)簽,校準(zhǔn)過(guò)程本身大多是離線的。Dhall等人的方法[ 11 ]使用特殊編碼的ArOco標(biāo)記[ 12 ]來(lái)獲得LiDAR和相機(jī)之間的3D - 3D點(diǎn)對(duì)應(yīng)關(guān)系。Velas等人的校準(zhǔn)方法[ 13 ]也依賴于特定的3D標(biāo)記。在[ 14 ] 中,Schneider等人提出了一種基于深度學(xué)習(xí)的端到端特征提取、特征匹配和全局回歸的體系結(jié)構(gòu)。他們的方法能夠?qū)崟r(shí)運(yùn)行,并且可以針對(duì)在線錯(cuò)誤校準(zhǔn)誤差進(jìn)行調(diào)整。然而,從頭開(kāi)始訓(xùn)練系統(tǒng)需要大量數(shù)據(jù)。此外,每輛車都需要單獨(dú)收集數(shù)據(jù),因?yàn)閭鞲衅鞯呐帕泻蛢?nèi)部結(jié)構(gòu)可能會(huì)有所不同。Castlerena等人的研究[ 15 ]基于使用反射率值的光學(xué)相機(jī)和LiDAR數(shù)據(jù)之間的邊緣對(duì)齊,使用KITTI外部參數(shù)作為地面真實(shí)情況,他們實(shí)現(xiàn)了接近KITTI精度的無(wú)目標(biāo)方法。Levinson和Thron [ 8 ]的無(wú)目標(biāo)相機(jī)LiDAR校準(zhǔn)方法適合圖像和點(diǎn)云數(shù)據(jù)中的邊緣,但使用了詳盡的網(wǎng)格搜索。我們的外部校準(zhǔn)方法建立在此基礎(chǔ)上,但是在線工作,不需要對(duì)參數(shù)進(jìn)行詳盡的計(jì)算搜索。
III.方法
這一部分概述了當(dāng)前與相機(jī)和LiDAR傳感器數(shù)據(jù)融合相關(guān)的研究,包括內(nèi)部傳感器校準(zhǔn)、傳感器之間的外部校準(zhǔn)和數(shù)據(jù)融合,以創(chuàng)建混合數(shù)據(jù)類型。傳感器融合可分為三類:LLF、中層融合( MLF )和HLF。HLF是汽車原始設(shè)備制造商最流行的融合技術(shù),主要是因?yàn)樗褂昧斯?yīng)商提供的傳感器對(duì)象列表,并將它們集成到環(huán)境模型[1]中。然而,由于傳感器沒(méi)有相互校準(zhǔn),這種方法會(huì)導(dǎo)致像差和重復(fù)物體。防止這些問(wèn)題發(fā)生的一種方法是融合原始傳感器數(shù)據(jù)( LLF )。MLF是位于LLF之上的一種抽象,從多個(gè)傳感器數(shù)據(jù)中提取的特征被融合在一起。圖1顯示了我們車上的傳感器設(shè)置,圖2給出了整個(gè)融合管道的概述。以下各節(jié)將更詳細(xì)地解釋每個(gè)部分。
A.激光雷達(dá)和照相機(jī)的融合
在本節(jié)中,我們描述了LiDAR和相機(jī)的外部校準(zhǔn)方法、LiDAR點(diǎn)云( PC )在圖像上的投影、其采樣和深度圖中的特征提取。為了確保同時(shí)捕獲PC和圖像,我們通過(guò)軟件觸發(fā)兩個(gè)傳感器的記錄,并使用Velodyne HDL - 64E S3作為我們的LiDAR傳感器,它以10Hz的頻率旋轉(zhuǎn)。為了減少捕獲的PC的失真,我們補(bǔ)償了傳感器記錄期間車輛的自我運(yùn)動(dòng)。
圖1.寶馬測(cè)試車的傳感器設(shè)置由LiDAR (紅色箭頭)、攝像機(jī)(藍(lán)色箭頭)和雷達(dá)(綠色箭頭)組成。
外部傳感器校準(zhǔn)依賴于傳感器的精確內(nèi)部校準(zhǔn)。3 * 4相機(jī)固有矩陣定義了從相機(jī)到圖像坐標(biāo)系的齊次坐標(biāo)投影。我們遵循Datta等人的方法[ 16 ]并使用環(huán)形圖案校準(zhǔn)板(見(jiàn)圖3 ),對(duì)參數(shù)進(jìn)行迭代細(xì)化。與棋盤式照相機(jī)的標(biāo)準(zhǔn)校準(zhǔn)方法相比,我們觀察到平均再投影誤差減少了70 %。本征LiDAR校準(zhǔn)由制造商提供,該校準(zhǔn)定義了從每個(gè)發(fā)射器到傳感器基座坐標(biāo)系的轉(zhuǎn)換。
圖2.我們的傳感器融合和物體檢測(cè)管道概述。左圖顯示了傳感器之間的外部校準(zhǔn),并且僅在需要新校準(zhǔn)時(shí)執(zhí)行一次。右圖顯示了周期性運(yùn)行的傳感器融合和目標(biāo)檢測(cè)/定位的管道。
圖3.用于攝像機(jī)校準(zhǔn)的環(huán)形花紋板。按照[16]的內(nèi)稟攝像機(jī)標(biāo)定方法,與[17]的標(biāo)準(zhǔn)標(biāo)定方法相比,平均再投影誤差降低了70%。
圖4.LiDAR和照相機(jī)外定標(biāo)的問(wèn)題說(shuō)明。計(jì)算兩個(gè)傳感器之間的外定標(biāo)是指估計(jì)它們的坐標(biāo)系之間的旋轉(zhuǎn)R和平移t。我們明確地計(jì)算從LiDAR到攝像機(jī)的距離,并且能夠推斷出另一個(gè)方向。
LiDAR和攝像機(jī)之間的外部校準(zhǔn)對(duì)應(yīng)于在它們的坐標(biāo)系之間找到4*4變換矩陣。由旋轉(zhuǎn)和平移組成,因此具有六個(gè)自由度( DoFs ) (見(jiàn)圖4 )。為了找到LiDAR和攝像機(jī)之間的外部校準(zhǔn),我們通常遵循Levinson和Thron [ 8 ]的方法,但對(duì)其進(jìn)行了一些調(diào)整,如下文所述。
圖5. 圖5.由于沒(méi)有對(duì)提取的邊緣圖像應(yīng)用侵蝕和膨脹而導(dǎo)致的非最佳校準(zhǔn)估計(jì)。頂部(底部)圖像顯示了提取的邊緣圖像( RGB圖像),基于校準(zhǔn)估計(jì),該邊緣圖像沒(méi)有被投影的PC覆蓋。RGB圖像中來(lái)自右側(cè)汽車中心和下方樹(shù)木的小陰影會(huì)產(chǎn)生邊緣,PC數(shù)據(jù)中不存在相應(yīng)的邊緣。因此,優(yōu)化方法將產(chǎn)生非最優(yōu)校準(zhǔn)估計(jì),這可以在右側(cè)的汽車輪胎上看到。ED能夠減少這種小紋理的影響。
基本概念是找到定義的六個(gè)參數(shù),使得相機(jī)圖像中的邊緣匹配點(diǎn)云測(cè)量中的不連續(xù)性。出于這個(gè)原因,我們定義了一個(gè)相似性函數(shù)S。我們對(duì)投影點(diǎn)云圖像X的深度不連續(xù)性與邊緣圖像E進(jìn)行元素乘法,并在所有像素i上返回該乘積的和。為了平滑目標(biāo)函數(shù)并覆蓋更多場(chǎng)景,我們使用N對(duì)點(diǎn)云和圖像,并對(duì)它們的匹配分?jǐn)?shù)求和。目標(biāo)是找到最大化的變換:
邊緣圖像E如下所示。我們將RGB圖像轉(zhuǎn)換成灰度,并用Sobel算子計(jì)算其邊緣。為了獎(jiǎng)勵(lì)幾乎匹配的PC和圖像邊緣,我們模糊了圖像邊緣。Levinson和Thron [ 8 ]為此目的使用了逆距離變換( IDT )。另一種可能是應(yīng)用高斯濾波器。結(jié)果表明,IDT與侵蝕擴(kuò)張(ED)聯(lián)合應(yīng)用效果最好。IDT ED提高了場(chǎng)景中陰影的魯棒性,這在駕駛場(chǎng)景中非常常見(jiàn)。圖5展示了IDT + ED的優(yōu)勢(shì)。在此圖像中,ED尚未應(yīng)用。圖像右側(cè)中央和汽車下方樹(shù)木的小陰影會(huì)產(chǎn)生圖像邊緣,PC中不存在相應(yīng)的邊緣。然而,優(yōu)化方法將試圖匹配這些邊緣,導(dǎo)致更差的校準(zhǔn)估計(jì)。在這種情況下,缺少ED會(huì)產(chǎn)生校準(zhǔn)誤差,這可以在車輛右側(cè)的輪胎上看到。ED能夠減少圖像中如此小的紋理差異的影響。如同在[ 8 ]中一樣,我們提取PC P中的范圍不連續(xù)性,產(chǎn)生不連續(xù)性P*的點(diǎn)云,具有
除了在[8]中,PI,j不僅可以表示深度,也可以表示i束Jth測(cè)量的強(qiáng)度。我們發(fā)現(xiàn),利用強(qiáng)度值獲得的標(biāo)定結(jié)果更好,因?yàn)榫哂羞吘壓筒煌牧系钠矫姹砻娌伙@示范圍而是強(qiáng)度不連續(xù)。然后將新獲得的PC用估計(jì)變換到攝像機(jī)坐標(biāo)系,然后用攝像機(jī)內(nèi)稟矩陣投影到圖像平面上,得到投影點(diǎn)云圖像X。
相似函數(shù)S是非凸的,不能解析求解。Levinson和Thrun [ 8 ]在六個(gè)參數(shù)上使用一個(gè)計(jì)算成本高昂的窮舉網(wǎng)格搜索進(jìn)行初始校準(zhǔn),然后在線逐步調(diào)整。由于我們?nèi)缟纤鰧?duì)它們的方法進(jìn)行了修改,我們能夠從參數(shù)的初始猜測(cè)開(kāi)始使用無(wú)梯度優(yōu)化方法來(lái)找到最優(yōu)的。我們使用BOBYQA [ 18 ],這是一種迭代算法,用于在優(yōu)化變量的邊界下找到黑體函數(shù)的最小值。BOBYQA依賴于具有信任區(qū)域的二次近似。我們能夠從最初幾厘米/度的猜測(cè)開(kāi)始找到最佳參數(shù)。因此,我們的方法能夠考慮制造公差。
圖6.用匹配和不匹配的外部LiDAR相機(jī)校準(zhǔn)比較與PC強(qiáng)度值重疊的圖像。上圖顯示了LiDAR相機(jī)外部與未對(duì)齊的圖像和PC邊緣不匹配。在底部圖像中,外部匹配良好,邊緣對(duì)齊良好。
通過(guò)利用正確外部校準(zhǔn)周圍的局部凸性,有可能跟蹤外部校準(zhǔn)估計(jì)的正確性,如[ 8 ]所示。想法是分析當(dāng)前的校準(zhǔn)C是否導(dǎo)致S的局部最大Sc。理想情況下,如果給定的校準(zhǔn)C是正確的,那么與C的任何小偏差都會(huì)降低相似性分?jǐn)?shù)。我們?cè)谒?個(gè)維度上執(zhí)行以給定校準(zhǔn)C為中心的單位半徑網(wǎng)格搜索,得到36= 729個(gè)不同的相似度分?jǐn)?shù)S。其中一個(gè)將是位于網(wǎng)格中心的Sc本身。FC是其他728個(gè)產(chǎn)生的S值低于SC的分?jǐn)?shù)。如果外部校準(zhǔn)C正確,這728個(gè)值中的大多數(shù)應(yīng)該小于SC,導(dǎo)致FC接近1。圖7顯示了對(duì)于給定校準(zhǔn),相似性分?jǐn)?shù)低于SC的校準(zhǔn)百分比,從而得出了不同校準(zhǔn)估計(jì)的一系列幀上的FC圖。我們可以看到,正確的外部校準(zhǔn)對(duì)應(yīng)于比不正確校準(zhǔn)更大的FC。
圖7.給定校準(zhǔn)估計(jì)值周圍的校準(zhǔn)百分比,其相似性分?jǐn)?shù)低于不同幀上實(shí)際估計(jì)值的相似性分?jǐn)?shù)。紅色曲線對(duì)應(yīng)于多個(gè)幀上正確校準(zhǔn)的FC,而所有其他曲線對(duì)應(yīng)于不正確校準(zhǔn)。
PC用變換,隨后用投影到RGB圖像上,產(chǎn)生RGB圖像,其中深度是稀疏的。圖6顯示了具有匹配和非匹配外部校準(zhǔn)的RGBD圖像的可視化。對(duì)于神經(jīng)網(wǎng)絡(luò)在融合數(shù)據(jù)上的訓(xùn)練和評(píng)估,我們需要標(biāo)記數(shù)據(jù)。由于標(biāo)簽價(jià)格昂貴,我們希望利用來(lái)自預(yù)先培訓(xùn)的網(wǎng)絡(luò)的權(quán)重。對(duì)于圖像數(shù)據(jù)來(lái)說(shuō),這可以很容易地完成,因?yàn)榇罅繕?biāo)記數(shù)據(jù)是免費(fèi)提供的。
然而,對(duì)于投影的LiDAR數(shù)據(jù),情況并非如此。因此,我們的目標(biāo)是以類似RGB圖像特征的方式對(duì)稀疏深度圖進(jìn)行編碼。這種編碼方案允許我們也使用來(lái)自圖像數(shù)據(jù)的預(yù)先訓(xùn)練的網(wǎng)絡(luò)權(quán)重,用于網(wǎng)絡(luò)中的深度通道。
我們通過(guò)首先使用Prebida等人提出的雙邊濾波器對(duì)稀疏深度圖進(jìn)行上采樣來(lái)實(shí)現(xiàn)這種編碼。[ 19 ]得到了一張密集的深度圖。然后,我們可以從稠密的深度圖中提取類似圖像的特征。Etel等人提出的噴射著色產(chǎn)生了一組這樣的特征[ 20 ]。通過(guò)將噴射顏色映射應(yīng)用于標(biāo)準(zhǔn)化深度值,可以簡(jiǎn)單地獲得三通道編碼。此外,我們還提取了HHA(水平視差、離地高度、相對(duì)重力的角度)特征[21]。兩組三通道特征顯示出與RGB數(shù)據(jù)相似的結(jié)構(gòu)。編碼深度數(shù)據(jù)的尺寸與攝像機(jī)數(shù)據(jù)的尺寸相匹配。RGB與JET / HHA結(jié)合產(chǎn)生總共六個(gè)數(shù)據(jù)通道,代表我們的融合數(shù)據(jù)。
B.融合數(shù)據(jù)上的目標(biāo)檢測(cè)
LLF和MLF的基本思想是利用來(lái)自多感官融合數(shù)據(jù)的更明顯和更有區(qū)別的特征集,這可以提高檢測(cè)和分類的準(zhǔn)確性。對(duì)于LLF,我們使用帶有VGG16 [ 10 ]的標(biāo)準(zhǔn)快速R - CNN管道,并修改其輸入層以容納6通道輸入數(shù)據(jù)。對(duì)于MLF,我們復(fù)制了快速R - CNN網(wǎng)絡(luò)的前四個(gè)卷積層,并為每個(gè)攝像機(jī)和LiDAR數(shù)據(jù)處理使用一個(gè)單獨(dú)的分支。我們將每個(gè)分支的第四卷積層之后的特征向量連接起來(lái),并將其輸入到標(biāo)準(zhǔn)快速R - CNN架構(gòu)的上部。我們使用轉(zhuǎn)移學(xué)習(xí)[ 22 ]并將權(quán)重從僅RGB網(wǎng)絡(luò)初始化到每個(gè)子網(wǎng)絡(luò),用于基于MLF的檢測(cè)。對(duì)于LLF,我們保持卷積濾波器的數(shù)量與最初的快速R - CNN網(wǎng)絡(luò)相同。對(duì)于MLF,由于有兩個(gè)分支,前四層中的參數(shù)數(shù)量增加了一倍。
對(duì)“汽車”和“行人”類別進(jìn)行檢測(cè)和分類。在我們的實(shí)驗(yàn)中,我們將三種更快的R - CNN網(wǎng)絡(luò)架構(gòu)用于僅RGB、RGB深度LLF和RGB深度MLF。RGB - only是標(biāo)準(zhǔn)的快速R - CNNN架構(gòu),僅使用相機(jī)數(shù)據(jù)作為輸入。我們用融合數(shù)據(jù)訓(xùn)練RGB深度線性調(diào)頻和RGB深度線性調(diào)頻,并同時(shí)使用JET和HHA深度編碼。RGB深度LLF的輸入由六通道融合數(shù)據(jù)組成。RGB深度MLF的輸入包括RGB和到各個(gè)網(wǎng)絡(luò)分支的深度編碼數(shù)據(jù)。
Ⅳ.結(jié)果
結(jié)果部分分為傳感器校準(zhǔn)以及LLF和MLF的目標(biāo)檢測(cè)和定位結(jié)果。我們的方法已經(jīng)在Kitti [ 7 ]和當(dāng)?shù)厥占某鞘袌?chǎng)景數(shù)據(jù)集上進(jìn)行了評(píng)估。在這里,我們只給出公開(kāi)的KITTI數(shù)據(jù)集的結(jié)果。
寶馬測(cè)試車如圖1所示,用于記錄內(nèi)部數(shù)據(jù)集,并在實(shí)踐中評(píng)估傳感器融合和檢測(cè)管道。這輛車包含一臺(tái)裝有用于融合的英特爾至強(qiáng)處理器的計(jì)算機(jī)和一張運(yùn)行神經(jīng)網(wǎng)絡(luò)的NVIDIA顯卡。本研究中使用的傳感器是Velodyne HDL - 64E S3、Point Gray Research公司的Grashhopper 2 GS2 - GE - 50S 5C - C攝像機(jī)和Axis通信P1214 - E網(wǎng)絡(luò)攝像機(jī)。傳感器融合以10Hz運(yùn)行,與LiDAR同步。每個(gè)融合數(shù)據(jù)對(duì)的目標(biāo)檢測(cè)推斷時(shí)間約為250毫秒。優(yōu)化框架,如NVIDIA的TenSORT [ 23,可能會(huì)大大減少推理時(shí)間。
圖8.我們的圖像邊緣提取方法的可視化。(上)顯示RGB圖像,(中)顯示應(yīng)用于圖像邊緣的IDT + DE結(jié)果,(下)顯示圖像邊緣與PC的擬合。
A.校準(zhǔn)結(jié)果
使用IDT + DE進(jìn)行邊緣提取和后續(xù)邊緣模糊環(huán)的結(jié)果如圖8所示。校準(zhǔn)算法成功收斂,對(duì)初始猜測(cè)中的誤差具有魯棒性。IDT + DE處理成功平滑了邊緣圖像中的梯度,產(chǎn)生了更平滑的相似度函數(shù),優(yōu)化器可以找到全局最大值?;蛘撸梢詾榇四康氖褂酶咚蛊交?,這種平滑精度較低,但速度更快。更多細(xì)節(jié)在圖5中已有說(shuō)明。
由于Kitti用于網(wǎng)絡(luò)訓(xùn)練,因此有必要進(jìn)行正確的外部校準(zhǔn)。數(shù)據(jù)集包括外部校準(zhǔn),該校準(zhǔn)是根據(jù)來(lái)自PC和圖像[ 24的手動(dòng)選擇的點(diǎn)對(duì)應(yīng)關(guān)系計(jì)算的。我們使用KITTI校準(zhǔn)作為我們的初始猜測(cè),運(yùn)行我們的外部校準(zhǔn)方法。表I顯示了我們計(jì)算的擠出物與提供的KITTI擠出物的偏差。一般來(lái)說(shuō),傳感器之間的外部校準(zhǔn)沒(méi)有基礎(chǔ)事實(shí)。因此,我們無(wú)法提供絕對(duì)錯(cuò)誤。然而,目視檢查(見(jiàn)圖9 )顯示,我們的樣品比Kitti提供的樣品更準(zhǔn)確。
表一非本征激光雷達(dá)相機(jī)的絕對(duì)差異
KITTI的校準(zhǔn)參數(shù)和我們的方法
V.結(jié)論和今后的工作
在本研究中,我們改進(jìn)了Levinson和Thron [ 8 ]的現(xiàn)有校準(zhǔn)方法,以提高物體的檢測(cè)和定位精度。我們通過(guò)使用LiDAR、IDT + DE和無(wú)梯度優(yōu)化器的強(qiáng)度不連續(xù)性來(lái)估計(jì)旋轉(zhuǎn)和平移參數(shù),從而在許多方面進(jìn)行了改進(jìn)。融合LiDAR和照相機(jī)的高級(jí)目標(biāo)列表的流行方法缺乏適當(dāng)?shù)耐獠啃?zhǔn),因此在融合數(shù)據(jù)中產(chǎn)生像差和振鈴。我們的外部校準(zhǔn)方法產(chǎn)生的結(jié)果比KITTI數(shù)據(jù)集的校準(zhǔn)更準(zhǔn)確,我們的融合實(shí)時(shí)運(yùn)行、重量輕。我們對(duì)投影點(diǎn)云進(jìn)行上采樣,并使用不同的深度編碼( HHA / JET )。我們展示了相機(jī)LiDAR部分的中低層融合RGB和深度數(shù)據(jù)的檢測(cè)和分類結(jié)果。
我們的工作可以通過(guò)將雷達(dá)集成到融合管道中來(lái)擴(kuò)展。我們目前正在遵循一種基于速度跟蹤的激光雷達(dá)和雷達(dá)之間的外部校準(zhǔn)方法。在LiDAR和雷達(dá)數(shù)據(jù)中,屬于單個(gè)對(duì)象的測(cè)量值被聚類,然后基于估計(jì)/測(cè)量的速度相互關(guān)聯(lián)。然后,對(duì)應(yīng)關(guān)系產(chǎn)生變換矩陣的估計(jì)。這種方法中的幾個(gè)步驟,LiDAR數(shù)據(jù)的跟蹤、聚類和輪廓保持需要自動(dòng)化和改進(jìn)。
此外,我們預(yù)計(jì)使用即將推出的Flash LiDArs會(huì)帶來(lái)更好的效果。Flash LiDArs將有助于消除補(bǔ)償PC中許多基于自我運(yùn)動(dòng)的異常,也有助于傳感器之間更好的時(shí)間同步。
REFERENCES
[1] M. Aeberhard and N. Kaempchen,“High-level sensor data fusion architecture for vehicle surround environmentperception,” in Proc. 8th Int. Workshop Intell. Transp, 2011.
[2] J.-r. Xue, D. Wang, S.-y. Du, D.-x. Cui,Y. Huang, and N.-n. Zheng,“A vision-centered multi-sensor fusing approach to self-localization andobstacle perception for robotic cars,” Frontiers of Information Technology& Electronic Engineering, vol. 18, no. 1, pp. 122–138,2017.
[3] J. Lu, H. Sibai, E. Fabry, and D. A.Forsyth, “NO need to worry about adversarial examples in object detection inautonomous vehicles,” CoRR, vol. abs/1707.03501, 2017. [Online]. Available:http://arxiv.org/abs/1707.03501
[4]“Velodyne64,”http://velodynelidar.com/lidar/products/manual/HDL64E\%20S3\%20manual.pdf,[Online; accessed Nov 15, 2017].
[5] “Continental radar user manual,” https://www.continental
automotive.com/getattachment/bffa64c8-8207-4883-9b5c-85316165824a/Radar[1]PLC-Manual-EN.pdf.aspx,[Online; accessed Nov 15, 2017].
[6] X. Chen, H. Ma, J. Wan, B. Li, and T.Xia, “Multi-view 3d object detection network for autonomous driving,” in IEEECVPR, 2017.
[7] A. Geiger, P. Lenz, and R. Urtasun,“Are we ready for autonomous driving? the kitti vision benchmark suite,” inComputer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE,2012,pp. 3354–3361.
[8] J. Levinson and S. Thrun, “Automaticonline calibration of cameras and lasers.” in Robotics: Science and Systems,2013, pp. 24–28.
[9] A. Geiger, F. Moosmann, . Car, and B.Schuster, “Automatic camera and range sensor calibration using a single shot,”in 2012 IEEE International Conference on Robotics and Automation, May 2012, pp.3936–3943.
[10] S. Ren, K. He, R. Girshick, and J.Sun, “Faster r-cnn: Towards real[1]timeobject detection with region proposal networks,” in Advances in neuralinformation processing systems, 2015, pp. 91–99.
[11] A. Dhall, K. Chelani, V.Radhakrishnan, and K. M. Krishna,“Lidar-camera calibration using 3d-3d point correspondences,” CoRR, vol.abs/1705.09785, 2017. [Online]. Available: http://arxiv.org/abs/ 1705.09785
[12] S. Garrido-Jurado, R. M. noz Salinas,F. Madrid-Cuevas, and M. Mar′?n-Jimenez, “Automatic generation and detection ofhighly ′ reliable fiducial markers under occlusion,” Pattern Recognition, vol.47, no. 6, pp. 2280 – 2292, 2014. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S0031320314000235
[13] M. Velas, M. Spanel, Z. Materna, andA. Herout, “Calibration of rgb camera with velodyne lidar,” in Comm. PapersProc. International Conference on Computer Graphics, Visualization and ComputerVision (WSCG), 2014, pp. 135–144.
[14] N. Schneider, F. Piewak, C. Stiller,and U. Franke, “Regnet: Multimodal sensor registration using deep neuralnetworks,” CoRR, vol. abs/1707.03167, 2017. [Online]. Available:http://arxiv.org/abs/ 1707.03167
[15] J. Castorena, U. S. Kamilov, and P. T.Boufounos, “Autocalibration of lidar and optical cameras via edge alignment,”in 2016 IEEE International Conference on Acoustics, Speech and SignalProcessing (ICASSP), March 2016, pp. 2862–2866.
[16] A. Datta, J.-S. Kim, and T. Kanade,“Accurate camera calibration using iterative refinement of control points,” inComputer Vision Workshops (ICCVWorkshops), 2009 IEEE 12th International Conference on. IEEE, 2009, pp.1201–1208.
[17] Z. Zhang, “A flexible new techniquefor camera calibration,” IEEE Transactions on pattern analysis and machineintelligence, vol. 22, no. 11, pp. 1330–1334, 2000.
[18] M. J. Powell, “The bobyqa algorithmfor bound constrained op[1]timizationwithout derivatives,” Cambridge NA Report NA2009/06, University of Cambridge,Cambridge, 2009.
[19] C. Premebida, J. Carreira, J. Batista,and U. Nunes, “Pedestrian detection combining rgb and dense lidar data,” inIntelligent Robots and Systems (IROS 2014), 2014 IEEE/RSJ InternationalConference on. IEEE, 2014, pp. 4112–4117.
[20] A. Eitel, J. T. Springenberg, L.Spinello, M. Riedmiller, and W. Bur[1]gard,“Multimodal deep learning for robust rgb-d object recognition,” in IntelligentRobots and Systems (IROS), 2015 IEEE/RSJ Interna[1]tionalConference on. IEEE, 2015, pp. 681–687.
[21] S. Gupta, R. Girshick, P. Arbelaez,and J. Malik, “Learning rich ′ features from rgb-d images for object detectionand segmentation,” in European Conference on Computer Vision. Springer, 2014,pp. 345–360.
[22] Y. Wei, Y. Zhang, and Q. Yang,“Learning to transfer,” CoRR, vol. abs/1708.05629, 2017. [Online]. Available:http://arxiv.org/abs/1708. 05629
[23] “Nvidia tensorrt,”https://developer.nvidia.com/tensorrt, [Online; ac[1]cessedNov 15, 2017].
[24] A. Geiger, P. Lenz, C. Stiller, and R.Urtasun, “Vision meets robotics: The kitti dataset,” International Journal ofRobotics Research (IJRR), 2013.
[25] M. Everingham, L. Van Gool, C. K. I.Williams, J. Winn, and A. Zisserman, “The pascal visual object classes (voc)challenge,” International Journal of Computer Vision, vol. 88, no. 2, pp.303–338,Jun 2010. [Online]. Available: https://doi.org/10.1007/s11263-009-0275-4
-
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13923瀏覽量
166835 -
LIDAR
+關(guān)注
關(guān)注
10文章
328瀏覽量
29487
原文標(biāo)題:自動(dòng)駕駛中相機(jī)和LiDAR數(shù)據(jù)融合方法與目標(biāo)檢測(cè)
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論