從3D場景中實例形狀重建涉及恢復多個對象的完整幾何結構。這涉及到在語義實例級別對數據進行處理。使用數據驅動學習來應對場景的復雜性和室內遮擋。方法需要大規模、高質量的數據集來訓練,其中包括與真實世界掃描對齊和配對的形狀標注。已有數據集可能是合成的或不對齊的,這會限制數據驅動方法在真實數據上的表現。文章提出了一個名為LASA的數據集,包含了高質量的CAD標注和與ArkitScenes的真實場景掃描對齊的數據,這些由專業藝術家手動創建。在此基礎上,文章提出了一種名為DisCo的新型基于擴散的跨模態形狀重建方法,利用混合特征聚合設計,融合多模態輸入,并恢復高保真度的對象幾何結構。除此之外,還提出了一種名為OccGOD的基于占據信息引導的3D對象檢測方法,并展示了形狀標注提供的場景占據信息線索如何進一步改善3D對象檢測。經過大量實驗驗證,文章的方法在實例級別場景重建和3D對象檢測任務中取得了最先進的性能。
讀者理解:
LASA 使用大型對齊形狀注釋數據集的做法非常有意義。這使得 LASA 能夠學習到更通用的形狀特征,從而提高實例重建的準確性和可靠性。
LASA 使用實例分割、形狀對齊和生成對抗網絡等多種技術的做法非常合理。這使得 LASA 能夠生成逼真的、高質量的實例 3D 模型。
該研究提出了以下主要方法和貢獻:
LASA數據集構建:LASA是一個大規模數據集,包含10,412個手工制作的高質量CAD模型,覆蓋了920個真實場景。這些模型與ArkitScenes的3D激光掃描對齊,為數據驅動的重建算法提供了準確、一致的訓練數據。
DisCo方法:提出了一種基于擴散的跨模態形狀重建方法。該方法利用三平面擴散模型,結合部分點云和多視圖圖像,實現了高保真度的3D形狀重建。混合特征聚合層有效融合了不同輸入模態的局部特征,提高了特征對齊效果。
OccGOD方法:占據引導的3D物體檢測方法利用LASA的完整標注生成場景級占據地面真值,指導3D物體檢測。這種方法在處理遮擋和稀疏物體方面相較于基線方法取得了顯著的性能提升。
1 引言
本文探討了手持RGB-D傳感器廣泛應用的情況,指出由于傳感器精度的限制、室內環境的復雜性和物體之間的遮擋等問題,室內場景掃描往往存在噪音和不完整性。這限制了在虛擬/增強現實和3D行業等領域中對完整高質量重建的需求。文章著重介紹了3D視覺和圖形學領域對室內實例級場景重建的迫切需求,目標是基于傳感器捕捉的3D掃描或圖像來重建觀察到的物體形狀。深度學習方法已取得許多進展,但這些方法需要大量配對的場景掃描和CAD模型以進行訓練。然而,現有的數據集往往是合成的或者不對齊的,限制了數據驅動方法在真實數據上的性能。文章介紹了LASA數據集的創建,這是一個大規模對齊的形狀標注數據集,由專業藝術家手工制作,與920個真實世界場景的3D掃描對齊。LASA數據集的推出旨在解決當前研究中的瓶頸,為數據驅動的室內場景理解和重建提供了途徑。這里也推薦工坊推出的新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優化改進》。
2 方法
LASA數據集包含10,412個獨特的CAD模型,覆蓋了920個場景,采用專業藝術家手工創建,并與3D掃描對齊。這些標注為數據驅動的重建算法提供了精確一致的訓練數據。
LASA數據集是基于ArkitScenes的3D激光掃描構建,通過降采樣和轉換矩陣對齊實現數據預處理,再通過CAD模型手動標注和驗證確保了標注質量。
LASA數據集與其他現有數據集相比,具有相似數量的CAD模型,并且在CAD標注質量和形狀多樣性方面表現出優勢,同時能夠提供完整的RGB-D序列,拓展了其在下游應用中的可能性。
DisCo方法利用三平面擴散模型,結合了部分點云和多視圖圖像,實現了高保真度的3D形狀重建。同時,混合特征聚合層有助于更好地融合不同輸入模態的局部特征。
OccGOD利用形狀完整性先驗從LASA的標注中生成場景級占據地面真值,以指導3D物體檢測,在處理遮擋和稀疏物體方面取得了顯著的性能提升。
3 總結
通過引入LASA數據集,本研究提出了DisCo和OccGOD兩種方法,分別用于跨模態形狀重建和占據引導的3D物體檢測。這兩種方法在真實場景中取得了最先進的性能表現,證明了LASA數據集的支持對于改善室內場景理解和重建領域的標注質量和數量至關重要。
-
傳感器
+關注
關注
2551文章
51134瀏覽量
753840 -
CAD
+關注
關注
17文章
1092瀏覽量
72527 -
數據集
+關注
關注
4文章
1208瀏覽量
24712
原文標題:讀者理解:
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論