在發達的現代公路交通體系中,「各行其道」是交通運行的一項核心前提,車輛和行人按照劃分的道路區域規范通行,可以最大程度地保障交通的安全和效率。因此對自動駕駛來說,從環境信息中求解出自己的道路區域是至關重要的感知任務。
在這方面,Nullmax曾分享過一些出色的研究,包括用于3D車道線檢測的CurveFormer,近日入選了國際機器人和自動化頂級會議ICRA 2023,以及可用于局部地圖構建的BevSegFormer,入選了計算機視覺領域知名會議WACV 2023。
這兩篇論文均是在BEV視角下,基于Transformer對自動駕駛的「路在何方」問題進行了求解,不僅取得了極其出色的算法性能,還高效解決了實際量產應用中的一些難點、痛點,比如:更進一步的車道檢測效果,更滿足下游需求的任務輸出;通過車端實時構建局部地圖,將駕駛場景擴展至任意道路。
作為BEV + Transformer技術架構的部分研究,這些技術正與更多的拓展工作,一同應用到Nullmax的多個量產項目中。
BEV感知與車道線檢測
在自動駕駛感知中,實時檢測環境中的車道情況,乃至構建一份要素更多的局部地圖,可以視為理解靜態場景的核心工作。有了車道信息,車輛便可以在車道內和車道間進行一系列操作,如巡航、跟車、變道等,從而實現連貫的智能駕駛。
當中,感知系統需要提供自車坐標系下的車道線參數曲線,以便于下游的規控模塊使用。因此一些比較領先的行業方案,是將車道線檢測的輸出設計為BEV視角下的2D或3D車道線參數曲線。
BEV的原意是鳥瞰圖視角,這種俯瞰全局的表征方式可以更好地融合不同傳感器輸入的數據信息,在空間、時間維度進行統一的計算。其中,BEV視角一般可以設為相機坐標系,通過車輛下線的標定與自車坐標系進行便捷的轉換,所以BEV視角的車道線結果下游可以直接使用。
但是在行業內,更常見的是另一種方式:先在相機輸入的圖像上進行感知計算,然后再經過復雜的后處理將圖像空間的結果轉換到BEV視角下的3D空間。
當中的不足在于,這個后處理的過程需要工程師編寫大量代碼,同時也會消耗大量計算資源。而且面對千變萬化的真實世界,這種基于人工規則的后處理方式,也很難在各種情況下都獲得滿意的效果。
因此,包括車道線檢測在內的很多感知任務,將后處理部分設計為基于學習的模塊,讓整個算法以學習為主,這樣的話就可以重新定義任務,甚至重構整個自動駕駛系統。
比如車道線檢測的任務,就可以直接定義為:輸入圖像,輸出BEV視角的車道線參數曲線。
面向量產的3D車道線算法
在去年,Nullmax提出了基于Transformer的3D車道線檢測方法CurveFormer,取得了業界最佳(SOTA)的算法效果,論文在今年被國際機器人領域頂會ICRA錄用。
論文鏈接:https://arxiv.org/abs/2209.07989v1
這項算法可以直接輸出BEV視角的3D車道線參數曲線,而不是在圖像空間進行輸出。當中的技術亮點在于,無需顯式構建BEV空間,直接從圖像特征求解BEV視角的3D車道線參數曲線,將計算量大大減少。
一般基于CNN和其他Transformer的方法,需要先構建稠密的BEV空間(比如100*100大小的BEV grid)生成BEV特征圖,然后以此為基礎完成感知任務的輸出。
但在現實世界,很多感知對象稀疏分布在環境當中。比如障礙物檢測時,視野范圍內的目標通常只有幾個;車道線檢測時,視野范圍內的車道線也只有幾根。這些感知對象的數量,遠遠小于BEV網格的數量,顯式構建稠密BEV空間的做法不夠高效,產生大量多余計算。
Nullmax借鑒目標檢測方面的一些思路,將車道線描述為稀疏的曲線query,利用deformable attention機制構建符合車道線檢測的curve cross attention,完成BEV空間query和圖像特征之間的關聯,并通過迭代更新的方式輸出3D車道線參數,大大減少了整個過程的計算量。
在合成數據集和真實世界數據集上,CurveFormer與3D-LaneNet、Gen-LaneNet、PersFormer等優秀算法進行了對比,實驗數據顯示CurveFormer擁有非常全面的優異性能,優于其他算法。
因此在量產應用中,CurveFormer也呈現出了巨大的落地優勢,不僅任務效果出眾,可以滿足復雜城市道路等場景下的車道線檢測要求,而且計算需求不大,可以部署到算力較低的量產計算平臺之上。
局部地圖與全場景駕駛
對于自動駕駛來說,車道線檢測只是「尋路問道」的一種形態,如果更進一步,在車端實時構建局部地圖,那么自動駕駛在技術和應用上還有更多發揮的空間。
比如,通過常規導航地圖+高精度局部地圖,將駕駛場景擴展至任意常規道路,擺脫對高精地圖的依賴。車輛基于導航地圖進行全局的道路規劃,然后通過局部地圖進行具體軌跡的規劃,這樣在沒有高精地圖的情況下,自動駕駛功能也能正常啟用,完成任意場景下A點到B點的行駛。
再比如,基于局部地圖打造端到端的整體方案,也就是一些地方所說的單棧式方案。近年來,學習為主的規劃算法成為新的趨勢,在這種算法設計下,局部地圖相比于車道線是一種更為直接的輸出形式,感知、規劃更便于融為一個整體網絡。
正是如此,局部地圖成為了近年來備受關注的一個技術熱點。視覺信號蘊含著尤為豐富的環境信息,包括大量的語義、幾何信息,因此視覺建圖的思路早已在眾包地圖、泊車地圖等方面進行了驗證或應用。在這方面,最常用的方法是視覺SLAM(同步定位與地圖構建)。
如今,隨著BEV感知快速發展,BEV視角的語義分割、道路環境理解也成為了在線視覺建圖的一個優先選項。它的優勢在于可以很好地融合多個視角相機的圖像,提取出豐富的環境信息,整體效果更加魯棒。同時,BEV視角的語義分割也更方便和其他BEV視角的感知任務、規劃任務整合,形成端到端的整體方案,進行全局的優化。
局部地圖和其他地圖相比,不僅關注地圖信息的高精度,還尤為看重車端的實時性,因此這也對算法提出了很高的要求。
行業頂尖的BEV語義分割
為了更好地滿足自動駕駛上下游的需求,打造面向全場景的自動駕駛功能,Nullmax的感知團隊在去年提出了面向任意相機配置(單個或多個)的BEV語義分割算法BEVSegFormer。
這一基于Transformer的BEV語義分割方法,同樣也取得了當下業界最優(SOTA)的算法效果,論文入選計算機視覺學術會議WACV 2023。BEVSegFormer相比于HDMapNet等優秀算法,性能提升超過了10個百分點。
論文鏈接:https://arxiv.org/abs/2203.04050
BEVSegFormer同樣擴展deformable attention形成multi-camera cross attention,完成BEV空間的query和圖像特征之間的關聯,從而實現了不依賴相機參數,另一方面也可以大大節約計算量。
在實際的行車過程中,顛簸、加速、制動、上下坡等情況都可能引起相機外參的變化,精準的實時相機外參估計相對困難,不依賴相機的參數,可以讓算法在這些情況下更加穩定,魯棒性更強。
特別是,BEVSegFormer不依賴相機參數就可以將圖像特征轉成BEV特征,基于得到的BEV特征,又可以擴展出多個其他任務,比如3D目標檢測,包括將不同時刻的BEV特征緩存下來,進行時序上的融合。并且基于這一創新點,Nullmax感知團隊已經完成了多項擴展研究。
目前,Nullmax正在將BEVSegFormer應用到量產項目中,實時構建稠密的高精度局部地圖,幫助客戶拓展功能范圍,從而實現任意常規道路上的智能駕駛。
結語
當前,Nullmax正在完成一套車端實時運行BEV + Transformer技術架構,同時支持感知、規劃任務,并能在高、中、低算力平臺上完成落地的自動駕駛整體方案。通過BEV感知完成3D車道線檢測和局部地圖構建,正是當中的一部分工作。
預計在2023年,Nullmax打造的這套多相機BEV-AI方案就將完成交付。通過這些先進的技術,Nullmax希望能夠為普通用戶提供極致安全、舒適高效的智能駕駛體驗。
審核編輯 :李倩
-
機器人
+關注
關注
211文章
28632瀏覽量
207985 -
自動化
+關注
關注
29文章
5620瀏覽量
79531 -
智能駕駛
+關注
關注
3文章
2588瀏覽量
48858 -
自動駕駛
+關注
關注
784文章
13923瀏覽量
166820 -
LLM
+關注
關注
0文章
298瀏覽量
365
原文標題:從3D車道線到局部地圖,BEV視角求解「路在何方」| Nullmax進化學
文章出處:【微信號:Nullmax,微信公眾號:Nullmax紐勱】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論