自特斯拉在2021 AI Day上提出BEV障礙物感知的思路后,BEV逐漸成為業界爭相落地的熱點。
但BEV也存在一些待解決問題,比如:
(1) 僅能對真實世界中類別限定的目標進行的感知(如圖1.b所示),如果想得到可行駛區域、環島、人行橫道、上方障礙物(如各類紅綠燈或攝像頭懸臂、地庫限高架等)、臨時廣告牌等,需要額外的感知模塊去進行處理;
(2) 障礙物僅能用3D框描述,具體的形狀輪廓也丟失了;
(3) 如果行駛環境中出現沒見過的物體(如圖1.a中右下角的紅色移動廣告牌或者紅綠燈懸臂),那障礙物檢測也會失效,只能通過多模態開放場景檢測技術來彌補這類問題,但是這在目前算力有限的自動駕駛芯片上是無法實現的。
因此在2022的AI day上特斯拉提出占據預測的新思路,成功解決了上述問題。占據預測任務就是將以自車為中心的三維空間劃分成一個個小的體素柵格,然后預測每個柵格的語義類別。具體效果如圖1.c所示,可以看出占據預測可以對整個復雜世界的所有物體進行有效感知,從而有效的解決上述障礙物預測的問題。
但是現有公開的占據預測方法都需要構建三維體素級的特征表示,這不可避免地引入大量計算資源消耗,此外還需要硬件平臺對3D(可變形)卷積或者transformer模塊有較好的支持,這些都阻礙了業界將占用預測在實車上的部署落地。
圖 1. 障礙物檢測與占據預測效果對比。受訓練數據約束,預測范圍為前后左右40m,上下-1m到5.4m,柵格粒度0.4m。
與使模型變得更大、更復雜從而取得優異性能的趨勢相反,理想的框架應該對不同的端上芯片部署友好,并且保持高精度。本著輕量易部署且性能無損甚至還提升的初衷下,大連理工、后摩智能以及阿德萊德聯合提出了一種簡單輕量的占據插件,稱之為FlashOCC。
通過在主流占據方法(BEVDetOcc、FBOcc、UniOcc等)上的驗證,證明了FlashOCC在部署顯存需求、推理時間、訓練耗時以及模型精度上都取得了最優的權衡,并且對各類端上芯片部署友好。
論文地址:https://arxiv.org/abs/2311.12058
代碼鏈接:https://github.com/Yzichen/FlashOCC
內容簡介
方法架構:
圖 2插件概述以及綜合性能比對
FlashOcc以極優的精度完成了實時環視3D占用預測,代表了該領域的開創性貢獻。此外,它還展示了跨不同車載平臺部署的優越性,因為不需要昂貴的體素級特征處理,從而避免了transformer或 3D(可變形)卷積算子。FlashOcc通過2類替換對現有基于體素級3D特征的占據任務進行提升:
(1) 用2D卷積替換3D卷積;
(2) 用通道到高度變換替換從3D卷積得到的占用預測,具體如圖1.(a)所示。圖1.(b)則通過圖表詳細說明了模型精度與速度、推理內存消耗以及訓練時間等因素之間的權衡。
雖然FlashOcc專注于以即插即用的方式增強現有模型,但它仍然可以分為五個基本模塊,具體如圖2所示:
(1) 用于提取圖像特征的2D圖像編碼器。
(2) 將2D圖像特征映射到BEV表征的視圖轉換模塊。
(3) 修正BEV特征的BEV編碼器。
(4) 預測每個體素分割標簽的占用預測頭。
(5) 集成歷史信息以提高性能的時間融合模塊(可選)。
圖 3框架圖
實驗表明我們方法在同比條件下都取得了最優的性能以及訓練及部署資源消耗。
表 1Occ3D-nuSences驗證集上的性能
表 2訓練及部署消耗說明
下圖對模型預測進行可視化。由于用于訓練的數據的柵格細粒度是40cmx40cmx40cm,因此對細節的構建較為粗糙。但即便如此,可以看到我們的方法可以有效預測橫跨馬路懸空的紅綠燈,這證明FlashOcc有效的構建了高度信息,此外懸空樹木的輪廓預測也證明了這一點;而圖中表示行人的占據柵格,在胸口前柵格占據表示手持手機、腿后柵格占據表示后拉行李箱,證明我們方法對細節外形捕捉能力;交通錐的準確預測證明了小目標捕獲能力。
圖 4 可視化。受訓練數據約束,預測范圍為前后左右40m,上下-1m到5.4m,柵格粒度0.4m。
總結與展望
FlashOcc初步探索了性能無損端上部署友好輕量級占用預測方法,為占據任務實車落地提供技術原型支撐,精度、效率和內存消耗均超越當前SOTA。未來進一步探索高效的端上可部署的端到端自動駕駛方案將是我們重要的研究方向。
審核編輯:劉清
-
FlaSh
+關注
關注
10文章
1641瀏覽量
148413 -
特斯拉
+關注
關注
66文章
6322瀏覽量
126704 -
自動駕駛芯片
+關注
關注
3文章
48瀏覽量
5100
原文標題:后摩前沿 | 輕量級占用網絡FlashOcc:主打實時性,高精度高效內存
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論