主要內容: 提出了一種基于NeRF的六自由度姿態估計方法,即當給定單個RGB查詢圖像時通過最小化NeRF模型渲染的圖像像素與查詢圖像中的像素之間的殘差來估計相機的平移和旋轉。
算法將基于動量的相機外參優化算法集成到Instant Neural Graphics Primitives(一種最近非常快速的NeRF實現,也是NVIDIA提出的),通過在姿態估計任務中引入并行蒙特卡羅采樣來克服問題總是收斂到局部極小值的問題,論文還研究了不同的基于像素的損失函數減少誤差的程度,最終的實驗也表明其方法可以在合成基準和真實基準上實現較好的泛化和魯棒性
Nerf(Neural Radiance Fields):神經輻射場,它提供了一種僅從一個或幾個RGB圖像中捕獲復雜3D和光學結構的機制,Nerf為在訓練或測試期間在沒有網格模型的情況下將合成-分析應用到更廣泛的現實場景提供了機會,NeRF將場景的密度和顏色參數化為3D場景坐標的函數,該函數既可以從給定相機姿態的多視圖圖像中學習,也可以給定一個或幾個輸入圖像通過生成模型直接預測。
Instant NGP:其提出是用來降低Nerf的訓練和推理代價,采用由可訓練的特征向量的多分辨率哈希表增強的小神經網絡,允許網絡消除哈希沖突的歧義,使其易于在GPU上并行化,實現了幾個數量級的組合加速,允許在在線訓練和推理等時間受限的環境中使用
出發點: 將Nerf用在姿態估計任務中的第一篇工作則是inerf,即反轉Nerf,此論文基于inerf,進一步探索了Nerf在姿態估計任務中的應用,普遍認為NeRF的一個缺點是其計算開銷很大,為了克服這一限制,本文利用了他們之前提出的快速NeRF,即即時神經圖形原件(Instant NGP),Instant NGP的結構允許并行優化,這可以用來克服局部最小值問題,從而實現比iNeRF更大的魯棒性。 Inerf:假設已經得到了權重θ參數化的NeRF模型,并且相機內參已知,iNeRF旨在恢復查詢圖像I的相機姿態T
Contributions:
提出了一種基于NeRF模型的估計6-DoF姿態方法。
將并行蒙特卡羅采樣引入到姿態估計任務中,展示了基于像素的損失函數選擇對魯棒性的重要性
通過合成和真實世界基準進行定量演示,證明所提出的方法改進了泛化和魯棒性
Pipeline:
三個輸入:單個RGB圖像、初始粗略姿態估計(通過向真值添加干擾得到)以及從目標的多個視圖中訓練的即時NGP模型。
基于動量的相機外參優化:
相對于標準Nerf,對相機姿態和梯度表示進行了修改,允許梯度更新的動態性結合基于動量的方法來增強優化。
首先,相機姿態由平移分量(位置)和旋轉分量(方向)組成,通常由特殊歐式群建模,即SE(3),NeRF中外參優化的目標是找到那些通過梯度下降將圖像空間損失最小化的相機姿態,梯度更新在特殊的歐式群上的李代數se(3)中計算,然后生成結合旋轉和平移的相機姿態更新,作者認為使用SE(3)/se3表示有一個缺點,即相機姿勢更新的旋轉中心不在相機原點,而是在旋轉軸上,這將相機位置和方向耦合起來,這種耦合導致某些情況下次優梯度更新,如下圖所示,
為了解耦平移和旋轉更新,作者將相機姿態建模為笛卡爾積SO(3)×T(3)(以及相應的李代數空間上so(3)×t(3)),其在T(3)上采用加法結構,在SO(3)上采用乘積結構,梯度更新將沿直線移動,從而實現更高效的優化。
其次,基于動量的優化在經驗上證明了比基于標準梯度的方法更有效,尤其是當與自適應更新相結合時,在NeRF中每個像素對應于具有原點o和方向d的射線,沿著該射線,基于沿射線的移動距離ti得到pi=o+ti.d,損失的梯度與相機距離的叉積定義了每像素(光線)更新影響:
基于剛體力學,對上式有一種物理解釋,即由外力對相機產生的一個扭矩,該外力由基于圖像的損失函數梯度產生,應用于光線導出點,就像它剛性地連接到相機一樣。
因此將此分解應用于Adam優化器,將Adam的第一個moment轉化為相機的物理動量,因為相機被用作力矩的梯度“推動”,盡管Adam的第二moment和指數衰減沒有直接的物理類似物,由于物理系統遵循最小動作路徑,可以推斷相機在解耦參數化中遵循從其初始姿態到其優化姿態的有效路徑。
并行蒙特卡洛采樣: 由于優化的損失函數在6-DoF空間上是非凸的,單相機姿態假設很容易陷入局部極小值,由于Instant NGP的計算能力能夠同時從多個假設開始優化,但是一個簡單的多起點思想是低效的,特別是在一個大的搜索空間中,其中許多假設在優化過程中會偏離,因此它們無法對最終優化做出貢獻,且占用了大量計算資源,從粒子濾波框架中獲得靈感,提出了一種簡單有效的姿勢假設更新策略來處理這個問題。
將優化過程分為兩個階段,自由探索和重采樣更新。 在第一階段,圍繞起始姿態生成相機姿態假設,平移和旋轉偏移分別在歐式空間和SO(3)中均勻采樣,相機姿態假設將進行獨立優化,這樣其中一些可以相對接近實際情況。 之后第二階段,比較所有假設的損失,并將其作為采樣權重的參考。
不同損失函數的影響: 通過合成視圖進行姿態估計的方法最大挑戰之一是與原視圖相比,視圖材質具有不同的視覺表面,包括許多干擾、環境噪聲、照明條件變化和遮擋等都可能導致這個問題。
之前inerf使用L2損失,但作者研究了更多的損失選項以測量渲染像素和觀察像素之間的差異,不同的損失具有不同的收斂特性,進而影響優化過程
研究了L1(平等的對待error)、L2(懲罰較大的error,寬容較小的error)、Log L1(是L1損耗的對數版本,它試圖平滑收斂曲線,尤其是對于較大的誤差)、Relative L2(它對高強度目標像素與低強度目標像素錯位的情況更敏感)、MAPE(MAPE表示平均絕對百分比誤差,作為基于誤差相對百分比的精度度量,它也可以被視為相對L2損耗的L1等效值,它與規模無關,對負錯誤的懲罰更重)、sMAPE(是MAPE的對稱版本,解決MAPE的不對稱問題,但當預測和GT都具有低強度時,它可能是不穩定的)、Smooth L1(平滑L1損失被設計為對異常值不太敏感,并且可以防止梯度爆炸)
最終通過實驗發現常用的L2損失未必是最好的,MAPE在其數據集測試上實現了最好的性能。
實驗: 在Nerf合成數據集和真實數據集LLFF與inerf進行了比較
不同損失函數對結果性能的比較:
審核編輯:劉清
-
神經網絡
+關注
關注
42文章
4778瀏覽量
101019 -
RGB
+關注
關注
4文章
801瀏覽量
58626 -
NGP
+關注
關注
0文章
12瀏覽量
6695
原文標題:并行Nerf逆過程解決姿態估計問題!(Arxiv 2022)
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論