來源:3D視覺工坊
0. 這篇文章干了啥?
視覺定位旨在估計在已知環境中捕獲的給定圖像的旋轉和位置,大致可以分為絕對姿態回歸(APR),場景坐標回歸(SCR)和分層方法(HM)。APR將地圖嵌入到高級姿態特征中,并使用多層感知器(MLP)預測6自由度姿態;它們對于大規模場景來說速度很快,但由于隱式3D信息表示,精度有限。與APR不同,SCR對像素進行3D坐標回歸以直接構建2D-3D匹配,并使用PnP和RANSAC估計姿態。盡管在室內環境中具有很高的精度,但SCR無法擴展到室外大規模場景。HMs不使用端到端的2D-3D匹配預測,而是采用全局特征在數據庫中搜索參考圖像,然后建立提取的查詢關鍵點和參考圖像之間的對應關系;這些2D-2D匹配被提升為2D-3D匹配,并用于使用PnP和RANSAC的絕對姿態估計,就像SCR一樣。由于精度高和靈活性強,HMs最近被廣泛使用。然而,2D關鍵點存儲的巨大內存成本損害了它們在實際應用中的效率。
這篇文章旨在找到一種高效準確的大規模視覺定位任務的解決方案。為了實現這一目標,作者采用了一種混合地圖的方法,僅通過渲染有用的稀疏像素來實現NeRFs的高效定位。混合地圖由兩部分組成:顯式幾何地圖(EGM)和隱式學習地圖(ILM)。EGM包含稀疏的3D點以及它們在參考圖像上的2D觀測。ILM是由NeRFs表示的隱式地圖。在測試時,參考圖像的2D觀測提供先驗的稀疏像素位置和相機姿態作為NeRFs的輸入。NeRFs返回每個稀疏像素的RGB值。為了提高精度,為每個像素渲染一個具有恒定大小的補丁。這些渲染的補丁進一步用于使用PnP和RANSAC進行絕對姿態估計的2D-3D匹配。
2. 摘要
視覺重定位是自動駕駛、機器人技術和虛擬/增強現實的關鍵技術。經過數十年的探索,絕對姿態回歸(APR)、場景坐標回歸(SCR)和分層方法(HMs)已成為最流行的框架。然而,盡管 APR 和 SCR 具有較高的效率,但在大規模室外場景中精度有限;HMs 具有較高的精度,但需要存儲大量用于匹配的 2D 描述符,導致效率低下。在本文中,我們提出了一種高效且準確的框架,稱為 VRS-NeRF,用于稀疏神經輻射場的視覺重定位。具體來說,我們引入了顯式幾何地圖(EGM)用于 3D 地圖表示和隱式學習地圖(ILM)用于稀疏補丁渲染。在這個定位過程中,EGP 提供了稀疏 2D 點的先驗信息,ILM 利用這些稀疏點使用稀疏 NeRF 渲染補丁進行匹配。這使我們能夠丟棄大量的 2D 描述符以減小地圖大小。此外,僅為有用的點渲染補丁,而不是整個圖像中的所有像素,可以顯著減少渲染時間。這個框架繼承了 HMs 的精度,但丟棄了它們的低效率。對 7Scenes、CambridgeLandmarks 和 Aachen 數據集的實驗表明,我們的方法比 APR 和 SCR 具有更好的準確性,并且與 HMs 的性能相近,但效率更高。
3. 效果展示
亞琛數據集上場景劃分的可視化。場景的統一劃分導致了不平衡的片段(左),在參考姿勢上的聚類給出了更平衡的結果(右)。
渲染圖像的可視化。可視化了來自7 scenes(上圖)、Cambridge landmarks(中圖)和Aachen(下圖)數據集的渲染和地面實況圖像。
匹配的可視化。可視化了來自7 scenes(頂部)、Cambridge landmarks(中間)和Aachen(底部)數據集的查詢圖像(左)和參考圖像(右)之間的匹配。
4. 主要貢獻
(1)提出了一種混合方法,結合顯式幾何地圖和隱式學習地圖進行視覺定位,使定位系統高效且準確。
(2)僅為有用的稀疏關鍵點渲染補丁,而不是渲染圖像,避免了耗時的渲染過程。
(3)采用基于聚類的策略進行場景劃分,使NeRFs能夠在大規模室外環境中工作。
5. 基本原理是啥?
借助EGM和ILM,VRS-NeRF能夠在線渲染有用的像素,而不是依賴離線2D描述符進行匹配,從而使定位系統更加高效。為了使當前的NeRFs在大規模場景中工作,VRS-NeRF采用了基于聚類的策略來自適應自動地將場景劃分為較小的場景。
6. 實驗結果
將VRS-NeRF與之前的APRs和HMs進行比較。APRs給出了最大的誤差,因為它們在定位過程中與圖像檢索具有相似的行為,導致姿態精度有限。由于大多數APRs只報告中位誤差,因此它們的成功率不可用。SCRs由于其顯式的三維坐標回歸,獲得比APRs高得多的準確性。HMs在中位誤差方面實現了最佳準確性。然而,由于依賴稀疏關鍵點,它們對無紋理區域的魯棒性較差,因此其報告的準確性比某些SCRs,如DSAC*和ACE稍差一些。盡管VRS-NeRF用于定位稀疏補丁,但其在中位誤差方面的表現接近于HMs,并且在中位誤差方面明顯優于APRs和SCRs。與HMs類似,VRS-NeRF也對無紋理區域敏感。由于EGM繼承了HMs的優點,它優于以前的方法LENS和NeRF-loc,它們分別將NeRFs引入了APRs和SCRs。
劍橋地標數據集上先前方法和VRS-NeRF的結果。報告中位平移(厘米)和旋轉(°)誤差以及誤差閾值為25厘米,2°內的姿勢成功率。由于缺少嵌入的三維信息,APRs的誤差比SCRs大2倍以上。SCRs在中位平移和旋轉誤差方面報告了令人滿意的準確性。然而,它們在25厘米,2°誤差閾值內的成功率遠遠低于HMs。即使是最先進的DSAC*和ACE也無法達到與HMs相當的準確性。這些比較揭示了SCRs在戶外場景中的準確性并不如預期那樣高。HMs仍然是中位誤差和成功率方面最準確的方法。由于VRS-NeRF也保留了顯式的幾何信息作為顯式幾何圖,其結果與HMs一樣準確,并且比APRs和SCRs準確得多。與先前基于NeRF的LENS和NeRF-loc相比,VRS-NeRF也實現了顯著更好的準確性。
地圖大小和時間分析。地圖大小。在表IV中,展示了APRs,SCRs,HMs和VRS-NeRF的地圖大小。對于APRs和SCRs,地圖大小是模型大小。對于HMs,地圖大小是局部描述符,全局描述符和三維點的總和。由于VRS-NeRF舍棄了局部描述符并引入了NeRFs,VRS-NeRF的地圖大小是全局描述符,三維點和NeRFs的總和。APRs和SCRs都是內存有效的,因為它們將地圖壓縮到神經網絡中,以損失準確性為代價。由于存儲了2D描述符,HMs的地圖大小較大。SFD2+IMP的地圖大小比SP+SG小,因為SFD2具有較小的2D描述符維度。通過舍棄2D描述符,VRS-NeRF顯著減小了地圖大小。
消融研究,探討了不同補丁大小對姿勢準確性的影響。表V顯示,隨著補丁大小從8×9增加到15×15,姿勢準確性也增加。在國王學院這樣的戶外場景中,這一點更為明顯,因為查詢和參考圖像的視角和照明變化較大。然而,對于室內場景,由于查詢和參考圖像之間的變化很小,增加補丁大小的改進并不明顯。此外,隨著補丁大小的增加,渲染一個補丁所需的時間也會增加。因此,最終的解決方案是在準確性和效率之間取得平衡。對于沒有查詢和參考圖像之間大變化的室內場景,作者建議使用較小的補丁大小以提高效率。對于查詢和參考圖像之間有大視角,照明變化的室外場景,較大的補丁大小可以帶來更好的準確性。
7. 總結 & 未來工作
這篇文章提出了一種將NeRFs應用于視覺定位任務的新方法。具體來說,引入了顯式幾何地圖(EGM)和隱式學習地圖(ILM),以提供稀疏關鍵點和渲染補丁,以建立查詢和渲染圖像之間的稀疏匹配。通過從EGM提供的稀疏點進行稀疏渲染,VRS-NeRF避免了耗時的全圖像渲染。通過NeRFs表示的ILM,VRS-NeRF舍棄了消耗內存的2D描述符。因此,VRS-NeRF更加高效。然而,與最先進的方法相比,在大規模亞琛數據集上的準確性仍然有限。作者希望這項工作可以成為一個基線,更多的研究人員可以在將來使其變得更好。
-
機器人
+關注
關注
211文章
28445瀏覽量
207205 -
自動駕駛
+關注
關注
784文章
13826瀏覽量
166493 -
視覺定位
+關注
關注
5文章
52瀏覽量
12395
原文標題:VRS-NeRF:基于神經輻射場的視覺重定位了解一下?
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論