單目圖像估計3-D檢測框是目前自動駕駛研發流行的,單純的2-D檢測框無法在3-D空間去做規劃控制,去年百度Apollo發布2.5版本特意提到這方面的解決方案。
這里分析一下公開發表的有關論文,特別是近期的深度學習CNN框架,供參考。
其實最早看到3-D BBox的工作是Mobileye以前的CEO Shashua教授給的PPT demo(沒有paper了):
結果Tesla和Nvidia全都這么干了,潮流:)。
注:關于單目鏡頭估計物體的姿態有不少論文,也是跟這個課題相關的,一些深度學習的方法也不錯,不過不是本文的重點,在此不做重復介紹。
3D Bounding Boxes for Road Vehicles: A One-Stage, Localization Prioritized Approach using Single Monocular Images,9,2018
來自UC San Diego的論文。簡單講,該方法提出估計center of bottom face of 3D bounding box (CBF) 來解決2-D圖像得到3-D邊框的問題,為加速也采用了LUT。同時估計的還有物體的大小尺寸以及姿態。
下圖解釋了他們采用key point預測的方法而不是傳統2-D邊框底邊中心去推理3-D的位置。
這是他們的3-D邊框估計的算法結構:
3D Bounding Box Estimation Using Deep Learning and Geometry,CVPR,2017
該文也是百度Apollo引用的方法:
首先估計物體3-D朝向,然后回歸物體尺寸和3-D中心,最后得到物體的整個姿態和位置。這是2-D和3-D邊框的對應關系圖:
論文提出一種MultiBin方法求解物體朝向(相鄰bin之間可以重疊一部分),CNN模型如下圖:
朝向的局部和全局的關系如下所示:
總之,該方法利用了幾何約束從2-D邊框來估計3-D邊框,其中朝向估計很關鍵。一些結果見下圖:
Joint Monocular 3D Vehicle Detection and Tracking, 11,2018
該方法是對上面工作的推廣,增加了跟蹤模塊,提高了穩定性。
這是算法的流程圖:在RPN預測3-D中心的2-D投影位置,其中采用ROIalign而不是ROIpool減小了misalignment。每個求解3-D邊框的ROI包括以下幾項:2d Bbox, 3d box 中心投影, confidence score 和 對應特征向量。
其他跟蹤部分就不重點提了,下圖是一些結果展示:
下圖解釋了2-D邊框中心和3-D邊框中心的不同:
Orthographic Feature Transform for Monocular 3D Object Detection,11,2018
本文提出一個orthographic feature transform(OFT)用于解決2-D圖像推理物體3-D邊框的問題,原理如下圖:
在一個深度學習框架下,該模塊可以把圖像特征圖映射到正交鳥瞰圖,如下圖所示,輸入到一個top down network進行推理。
結果就不討論了,細節在論文里。
Multi-Level Fusion based 3D Object Detection from Monocular Images, CVPR, 2018
這是去年CVPR‘18的論文,下面是算法結構: 采用兩步法,加了一個估計深度圖的模型,結果送入RPN模塊,比較奢侈的做法,后面還將視差圖轉換成點云,進入detection模塊。
這是他們展示的結果:
看來大家對單目估計深度圖/視差圖很有信心。
MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization, 11, 2018
微軟的一篇論文,下圖是算法框圖:提出instance depth estimation (IDE),不是圖像的深度圖,可以直接估計物體3-D邊框的深度,還是采用ROIalign取代ROIpool;包括4個模塊,即2d detection(棕色), instance depth estimation(綠色), 3d location estimation(藍色) 和 local corner regression(黃色)。
這是估計Instance depth的模型結構:
這個示意圖告訴我們3-D邊框的圖像定位關系:
Instance depth的概念的解釋如下圖,的確是比較節儉的做法:
一些結果展示:
Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses and Task Priors, 1, 2019
Face++和UCLA的最新論文,算法框圖見下圖:該方法不光用了深度估計,還借用了路面假設作為約束;另外,采用morphable wireframe model,不過為避免landmark敏感,對3-D邊框做了模糊表示;除此之外,還有一個模塊叫3D-2D consistency。
這是3D-2D consistency的框圖介紹:包括幾個部分 2D Bounding box,2D Landmark,3D Orientation 和 scale hypotheses。
感覺還是比較奢侈的做法。
CubeSLAM: Monocular 3D Object Detection and SLAM without Prior Models, 6, 2018
從2-D邊框和消失點產生3-D cuboid proposals,隨后在單目視覺SLAM框架中優化,如下圖:
這是產生Proposals的方法:根據可視的面數目將Cuboids分成3類
下面是SLAM框架:在ORB SLAM基礎上改進,加入物體信息。
特征點的相關性處理方法采用物體點為先,景物點為后,如圖:綠色點是map上的,其他顏色的點屬于物體。
一些結果展示:
BoxCars: Improving Fine-Grained Recognition of Vehicles using 3D Bounding Boxes in Traffic Surveillance,CVPR,2016
3D 物體邊框是從監控視頻 (比車載視頻容易些)的2-D邊框得到的,如圖所示:利用了輪廓信息和姿態信息。
其實它的方法是把3-D邊框各個面拆開,如圖:然后輸入到CNN模型推理3-D信息。
這個CNN模型用來估計沿著消失點的方向:
結果是這樣的:
Vehicle Detection and Pose Estimation for Autonomous Driving (Thesis),2017
一個博士論文。采用FCN模型訓練得到2-D和3-D邊框,如圖:定義3-D邊框的3個方向,即front-bottom, left-bottom, front-left。
3D邊框定義如下:8個角點,6個面。
也是路面假設,這是得到3-D邊框的關鍵,下面是圖像逆投影公式:
根據逆投影和路面假設,可以先得到3-D邊框在路面的位置。下圖是3-D邊框投影到路面的效果:平行四邊形,然后被推理出實際3D邊框底部的正方形。
加上估計的物體高度,就得到3-D邊框。首先,先估算路面,算法如下:
利用前面提到的,bottom-left line 作為frontal plane 的法向量,然后用front-bottom-left 的點計算front plane;找到frontal plane 和逆投影的交點即得到頂點位置,這樣高度就得到了。
一些結果展示:包括頂視圖
Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image,CVPR,2017
MANTA是Many-Tasks的意思。完全通過CNN模型估計多個信息,如圖展示的結果:檢測, 部件定位, 可視性 和3D尺寸大小。
車輛模型的定義:wireframe模型比較復雜,不過能推理出遮擋的部件。
定義的車輛模版如圖:這是一個半自動的標注工程。
MANTA的系統框圖:CNN模型,region proposal network為先,之后修正兩次,分別是proposal改進和2-D邊框估計,最后NMS優化和3-D邊框估計。
Monocular 3D Object Detection for Autonomous Driving,CVPR,2016
比較有開拓性的CNN模型做3-D檢測的工作。如圖介紹系統如何產生3-D邊框的proposal:仍然有路面假設,有各種信息,包括分割,2D邊框,上下文,形狀,位置等等。
采用的CNN模型結構對3-D邊框的proposal打分:
打分的公式是:包括什么提到的各種信息term
結果展示:
Joint SFM and Detection Cues for Monocular 3D Localization in Road Scenes,CVPR,2015
NEC Lab早些的工作,給出的系統框圖如下:將SFM和檢測結合起來。
3-D定位物體是有假設路面的前提,首先看坐標系的定義如下圖:
而2-D邊框的底部可以通過路面假設反投到3-D空間:
下圖是物體的SFM部分:
整個定位輸出如圖這樣:其中右下角頂視圖有激光雷達ground truth顯示為紅色。
Are Cars Just 3D Boxes? – Jointly Estimating the 3D Shape of Multiple Objects,CVPR,2014
也比較舊的論文,下圖展示該系統通過shape modeling得到更精確的3-D定位:
根據路面假設和occlusion mask的3-D景物模型:
產生Scene particles,然后推理最后的deformable shapes,如圖算法:
一些結果如圖:
Monocular Visual Scene Understanding: Understanding Multi-Object Traffic Scenes,CVPR,2012
更早的論文,系統示意圖如下:有路面假設的景物模型,有遮擋推理模型,有跟蹤,有分割;HMM做跟蹤算法,MCMC方法做推理。
下圖是路面假設下的車載坐標系和世界坐標系的關系:
這里介紹的是車載攝像頭的旋轉:
目標距離的估計類似Mobileye,如圖:
-
攝像頭
+關注
關注
60文章
4860瀏覽量
96122 -
自動駕駛
+關注
關注
784文章
13923瀏覽量
166826 -
深度學習
+關注
關注
73文章
5512瀏覽量
121414
原文標題:自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法一覽
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論