本文是對我們CoRL 2022被接收的文章SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation的介紹。在這個工作中,我們利用transformer融合環視的多視角特征,提升模型性能,并提出SfM預訓練和聯合位姿估計來實現真實尺度的深度圖。很榮幸地,我們的文章被CoRL 2022收錄,目前項目代碼已開源,歡迎大家試用。
概述
近年來隨著人工智能的發展,自動駕駛技術飛速發展。以特斯拉為首的視覺派拋棄激光雷達,只依賴于圖像進行三維感知。作為純視覺感知方案的基石任務,基于圖像的三維目標檢測天然存在長尾問題。模型很可能會對數據集中沒見過的類別物體漏檢,而這種漏檢往往是致命的。重建出整個三維場景可以作為一種安全冗余,在三維目標檢測失效的情況下依然可以實現避障。
作為最簡單直接且不需要點云標簽的三維場景重建方式,在這個工作中我們重點研究自監督環視深度估計這個任務。自監督深度估計是一個很經典的領域,早在17年就有相關的工作,但大部分工作都是基于單目圖像的。與單目圖像不同,環視圖像的各個視角之間存在overlap,因此可以將多個視角之間的信息進行融合得到更準確的深度圖預測。除此之外,自監督單目深度估計存在尺度歧義(scale-ambiguity)問題,換句話說,預測出的深度圖會與深度真值差一個尺度系數。這是因為如果位姿和深度圖同時乘以一個相同的尺度,會使得光度一致性誤差(photometric loss)相同。與單目深度估計不同,假設我們可以知道多個相機之間的外參,這些外參我們可以比較容易的通過標定得到,外參中包含了世界真實尺度的信息,因此理論上我們應該可以預測得到真實尺度的深度圖。
我們根據環視視覺的特點提出了SurroundDepth,方法的核心是通過融合環視多視角信息以自監督的方式得到高精度且具有真實尺度的深度圖。我們設計了跨視角transformer以注意力機制的形式對多視角的特征進行融合。為了恢復出真實尺度,我們在相鄰視角上利用SfM得到稀疏偽點云對網絡進行預訓練。之后我們提出聯合位姿估計去顯示地利用外參信息,對深度和位姿估計網絡進行聯合訓練。在DDAD和nuScenes數據集上的實驗驗證了我們的方法超過了基線方法,達到了當前最佳性能。
方法
1) 跨視角Transformer (CVT)
2) SfM預訓練
這一步的目的是為了挖掘外參包含的真實世界尺度信息。一個自然的做法是以外參作為位姿估計結果,在空域上利用photometric loss得到帶有真實尺度的深度圖。但環視圖像之間的overlap比較小,這會使得在訓練開始階段,大部分的像素都會投影到overlap區域外,導致photometric loss無效,無法提供有效的真實尺度的監督。為了解決這個問題,我們用SIFT描述子對相鄰視角的圖像提取correspondences,并利用三角化轉換成具有真實尺度的稀疏深度,并利用這些稀疏深度對深度估計網絡進行預訓練,使其可以預測帶有真實尺度的深度圖。但由于環視多視角之間的overlap較小,視角變化較大,因此描述子的準確度和魯棒性有所降低。為了解決這個問題,我們首先預估出overlap區域,具體為每個視角圖像左右1/3部分的圖像,我們只在這些區域提取correspondences。進一步地,我們利用對極約束篩掉噪點:
3)聯合位姿估計
大部分深度估計方法用PoseNet估計時序上相鄰兩幀的位姿。拓展到環視深度估計上,一個直接的方法是對每個視角單獨預測位姿。但這種方法沒有利用視角之間的幾何變化關系,因此無法保證位姿之間的多視角一致性。為了解決這個問題,我們將位姿估計分解為兩塊。首先我們預測全局位姿,具體而言,我們將所有視角圖像送入PoseNet encoder,將特征平均之后再送入decoder:
實驗結果
我們在DDAD(Dense Depth for Automated Driving) [1]以及nuScenes [2]上均進行了實驗,使用了與Monodepth2 [3]相同的backbone網絡(ImageNet pretrained ResNet34)與pose estimation網絡來構建SurroundDepth。在兩個數據集上的實驗結果如下:
其中,我們對比了兩種最先進的單目深度估計方法(Monodepth2 [3] and PackNet-SfM [4])以及一種多相機深度估計方法FSM [5]。我們在相同的測試環境下對比了所有的方法,可以看出,SurroundDepth在兩個數據集上均取得了最好的性能。
此外,由于利用了環視相機之間的交互,SurroundDepth相比其他方法的一大優勢在于可以取得絕對深度估計。針對絕對深度,我們在兩個數據集上進行了相關實驗??梢园l現,僅僅利用spatial photometric loss無法使網絡學習到絕對深度。通過我們提出的SfM pretraining方法,網絡才能有效地預測絕對深度。
-
三維
+關注
關注
1文章
512瀏覽量
29022 -
代碼
+關注
關注
30文章
4823瀏覽量
68900 -
數據集
+關注
關注
4文章
1209瀏覽量
24793
原文標題:CoRL 2022 | 清華&天津大學提出SurroundDepth:自監督環視深度估計網絡
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論