0. 筆者個人體會
實例分割是CV領域很經典的任務,應用也非常廣泛。但一個比較頭疼的點是需要預定義類別,訓練和測試都只能針對固定的類別。
最近,筆者閱讀了一篇NeurlPS 2023開源的方案OpenMask3D,可以根據輸入詞匯直接分割模型,關鍵是輸入的詞匯非常任意,比如"印有花卉圖案的扶手椅",可以很好得跟其他類別區分開。
今天筆者將為大家分享這項工作,當然筆者水平有限,如果有理解不當的地方歡迎大家一起討論~
1. 效果展示
OpenMask3D聲稱是第一個開放詞匯3D實例分割模型,也就是輸入詞匯,分割對應的3D實例。神奇的是它甚至可以識別顏色、幾何、材料、位置、臨近關系等語義信息。比如輸入"腳凳"、"上面有一個花瓶的邊桌""一個白色的枕頭"、"放著花瓶的邊桌"、"空垃圾桶",感覺深度學習越來越偏向人類的思維模式了。
代碼已經開源了,感興趣的小伙伴可以運行代碼測試一下。下面來看具體的論文信息。
2. 摘要
我們介紹了開放詞匯3D實例分割的任務。當前的3D實例分割方法通常只能從訓練數據集中標注的預定義的封閉類集中識別對象類別。這給現實世界的應用程序帶來了很大的限制,在現實世界的應用程序中,人們可能需要執行由與各種各樣的對象相關的新穎、開放的詞匯表查詢所指導的任務。最近,開放詞匯3D場景理解方法已經出現,通過學習場景中每個點的可查詢特征來解決這個問題。雖然這種表示可以直接用于執行語義分割,但是現有的方法不能分離多個對象實例。在這項工作中,我們解決了這一限制,并提出了OpenMask3D,這是一個開放詞匯三維實例分割的zero-shot方法。在預測的類別不可知的3D實例掩模的指導下,我們的模型通過基于剪輯的圖像嵌入的多視圖融合來聚集每個掩模的特征。在ScanNet200和Replica上的實驗和消融研究表明,OpenMask3D優于其他開放詞匯方法,尤其是在長尾分布上。定性實驗進一步展示了OpenMask3D基于描述幾何圖形、啟示和材料的自由形式查詢來分割對象屬性的能力。
3. 算法解析
OpenMask3D聲稱是第一個開放詞匯的3D實例分割模型,其Pipeline由四個步驟組成:
1、輸入帶位姿的RGB-D和重建的點云;
2、對每個點云計算與類無關的實例Mask;
3、使用預訓練的視覺-語言模型CLIP,對每個Mask計算一個特征表示。
4、計算開放詞匯的三維實例分段表示,查詢概念相關的對象。
類別無關的實例分割怎么做的?
這個方法的關鍵新穎之處,在于它遵循一個實例mask引導的策略,而現有方法是基于點引導的。具體流程是先使用預訓練的3D實例分割模型進行預測,預測得到二進制mask以及對應的類別和置信度。OpenMask3D直接拋棄類別和置信度,將二進制mask送到下游計算mask-特征。
每個實例的Mask-特征怎么計算的?
對每個Mask,首先選擇在RGB序列中可見性最好的k個視角。在每個視角內,由3D實例分割投影為2D分割,用SAM(分割一切)優化,再經過裁剪獲得僅包括目標的多尺度mask圖。之后使用CLIP編碼器來獲得2D Mask的圖像embedding,這些圖像級的embedding再根據k個視角聚合得到mask-特征的表征。
k個視角圖像是如何計算的呢?
這里是計算的共視得分然后排序,用vis表示投影點云個數,其中第i個mask在第j幀圖像的得分為:
直接投影不就得到2D分割了,為啥還要加SAM?
作者認為,直接投影的話目標輪廓非常不準,而且會產生很多噪聲,因此使用了之前大火的分割一切模型來優化。這里也不是直接用SAM來分割,而是使用RANSAC采樣點+SAM分割的方案,得到置信度最高的2D分割區域。
經過這一步,就將類別無關的實例mask轉換為了語言特征,無論是使用文本查詢還是圖像查詢都非常方便。
4. 實驗結果
ScanNet200驗證集上的定量對比,對比了全監督方案Mask3D,還有另一個開放詞匯模型OpenScene。結果顯示OpenMask3DAP指標達到最優,尤其是長尾類別,對全監督方案還是有很大差距,這個也能理解。
ScanNet200驗證集上的消融實驗,對比top k視角選擇(也分析k值多少合適)、2D Mask生成(是否使用SAM)、多尺度裁剪對性能的影響。
下面這個實驗很有意思,之前的3D實例分割是使用預訓練模型生成的,現在作者測試了直接使用3D實例分割真值的效果,后面的流程都一樣。結果顯示,使用真值后,在長尾類上的精度甚至超越了全監督方案Mask3D 9.1% AP。
定性結果,測試開放詞匯3D實例分割性能。借助zero-shot性能,OpenMask3D能夠分割"一個綠色的座位"、"印有花卉圖案的扶手椅"、"上面沒有衣服的床"、"壁紙前的沙發"這樣很特殊的目標。而且OpenMask3D還可以識別顏色、紋理、情境、背景等對象屬性,這個非常新奇。
OpenMask3D和OpenScene的定性比對比,由于OpenMask3D計算的是embedding和每個對象實例的每個mask特征向量之間的相似性,所以會產生更好的分割邊界。這里也推薦「3D視覺工坊」新課程《徹底搞懂基于Open3D的點云處理教程!》。
5. 總結
感覺大模型在場景理解上越來越偏向人類的思維方式了,以前的實例分割只能檢測預定義的類別,現在居然可以分割"印有花卉圖案的扶手椅"這樣的實例,不得不感嘆AI的發展速度。OpenMask3D聲稱是第一個開放詞匯的3D實例分割模型,給定任意文本就可以查詢3D目標,甚至可以識別幾何信息、材料、顏色、位置關系這種語義信息,關鍵還是zero-shot的。
-
3D
+關注
關注
9文章
2910瀏覽量
107779 -
AI
+關注
關注
87文章
31463瀏覽量
269859 -
大模型
+關注
關注
2文章
2533瀏覽量
3006
原文標題:NeurlPS'23開源 | 首個!開放詞匯3D實例分割!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論