1、Camera only
主要思想:固定900個query個數,隨機初始化query。每個query對應一個3D reference point,然后反投影到圖片上sample對應像素的特征。
缺點:需要預訓練模型,且因為是隨機初始化,訓練收斂較慢
BEV Former
https://arxiv.org/abs/2203.17270
主要思想:將BEV下的每個grid作為query,在高度上采樣N個點,投影到圖像中sample到對應像素的特征,且利用了空間和時間的信息。并且最終得到的是BEV featrue,在此featrue上做Det和Seg。
Spatial Cross-Attention:將BEV下的每個grid作為query,在高度上采樣N個點,投影到圖像中獲取特征。
Temporal Self-Attention: 通過self-attention代替運動補償,align上一幀的feature到當前幀的Q
曠視,PETR
https://arxiv.org/pdf/2203.05625.pdf
2、多模態
清華,FUTR3D
https://arxiv.org/pdf/2203.10642.pdf
在DETR的基礎上,將3D reference point投影到Lidar voxel特征和radar point 特征上。
香港科技大學,Transfusion
https://arxiv.org/pdf/2203.11496.pdf
利用CenterPoint在heatmap上獲取Top K個點作為Query(這K個點可以看做是通過lidar網絡初始化了每個目標的位置,這比DETR用隨機點作為Qurey收斂要快),先經過Lidar Transformer得到proposal,把這個proposal作為Query,再和image feature做cross attention。
Google,DeepFusion
https://arxiv.org/abs/2203.08195
直接將Lidar feature和Camera feature做cross attention,這個思路牛逼,我不看到這篇論文是絕對想不到還能這么搞的。
編輯:黃飛
-
算法
+關注
關注
23文章
4613瀏覽量
92945 -
感知
+關注
關注
1文章
66瀏覽量
12135 -
Transformer
+關注
關注
0文章
143瀏覽量
6012
原文標題:BEV感知中的Transformer算法
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論