太大太粗太硬好爽受不了视频,佐佐木明希中文在线,亚洲激情网站

0. 筆者個人體會

實例分割是CV領域很經典的任務，應用也非常廣泛。但一個比較頭疼的點是需要預定義類別，訓練和測試都只能針對固定的類別。

最近，筆者閱讀了一篇NeurlPS 2023開源的方案OpenMask3D，可以根據輸入詞匯直接分割模型，關鍵是輸入的詞匯非常任意，比如"印有花卉圖案的扶手椅"，可以很好得跟其他類別區分開。

今天筆者將為大家分享這項工作，當然筆者水平有限，如果有理解不當的地方歡迎大家一起討論~

1. 效果展示

OpenMask3D聲稱是第一個開放詞匯3D實例分割模型，也就是輸入詞匯，分割對應的3D實例。神奇的是它甚至可以識別顏色、幾何、材料、位置、臨近關系等語義信息。比如輸入"腳凳"、"上面有一個花瓶的邊桌""一個白色的枕頭"、"放著花瓶的邊桌"、"空垃圾桶"，感覺深度學習越來越偏向人類的思維模式了。

代碼已經開源了，感興趣的小伙伴可以運行代碼測試一下。下面來看具體的論文信息。

2. 摘要

我們介紹了開放詞匯3D實例分割的任務。當前的3D實例分割方法通常只能從訓練數據集中標注的預定義的封閉類集中識別對象類別。這給現實世界的應用程序帶來了很大的限制，在現實世界的應用程序中，人們可能需要執行由與各種各樣的對象相關的新穎、開放的詞匯表查詢所指導的任務。最近，開放詞匯3D場景理解方法已經出現，通過學習場景中每個點的可查詢特征來解決這個問題。雖然這種表示可以直接用于執行語義分割，但是現有的方法不能分離多個對象實例。在這項工作中，我們解決了這一限制，并提出了OpenMask3D，這是一個開放詞匯三維實例分割的zero-shot方法。在預測的類別不可知的3D實例掩模的指導下，我們的模型通過基于剪輯的圖像嵌入的多視圖融合來聚集每個掩模的特征。在ScanNet200和Replica上的實驗和消融研究表明，OpenMask3D優于其他開放詞匯方法，尤其是在長尾分布上。定性實驗進一步展示了OpenMask3D基于描述幾何圖形、啟示和材料的自由形式查詢來分割對象屬性的能力。

3. 算法解析

OpenMask3D聲稱是第一個開放詞匯的3D實例分割模型，其Pipeline由四個步驟組成：

1、輸入帶位姿的RGB-D和重建的點云；

2、對每個點云計算與類無關的實例Mask；

3、使用預訓練的視覺-語言模型CLIP，對每個Mask計算一個特征表示。

4、計算開放詞匯的三維實例分段表示，查詢概念相關的對象。

類別無關的實例分割怎么做的？

這個方法的關鍵新穎之處，在于它遵循一個實例mask引導的策略，而現有方法是基于點引導的。具體流程是先使用預訓練的3D實例分割模型進行預測，預測得到二進制mask以及對應的類別和置信度。OpenMask3D直接拋棄類別和置信度，將二進制mask送到下游計算mask-特征。

每個實例的Mask-特征怎么計算的？

對每個Mask，首先選擇在RGB序列中可見性最好的k個視角。在每個視角內，由3D實例分割投影為2D分割，用SAM（分割一切）優化，再經過裁剪獲得僅包括目標的多尺度mask圖。之后使用CLIP編碼器來獲得2D Mask的圖像embedding，這些圖像級的embedding再根據k個視角聚合得到mask-特征的表征。

k個視角圖像是如何計算的呢？

這里是計算的共視得分然后排序，用vis表示投影點云個數，其中第i個mask在第j幀圖像的得分為：

直接投影不就得到2D分割了，為啥還要加SAM？

作者認為，直接投影的話目標輪廓非常不準，而且會產生很多噪聲，因此使用了之前大火的分割一切模型來優化。這里也不是直接用SAM來分割，而是使用RANSAC采樣點+SAM分割的方案，得到置信度最高的2D分割區域。

經過這一步，就將類別無關的實例mask轉換為了語言特征，無論是使用文本查詢還是圖像查詢都非常方便。

4. 實驗結果

ScanNet200驗證集上的定量對比，對比了全監督方案Mask3D，還有另一個開放詞匯模型OpenScene。結果顯示OpenMask3DAP指標達到最優，尤其是長尾類別，對全監督方案還是有很大差距，這個也能理解。

ScanNet200驗證集上的消融實驗，對比top k視角選擇（也分析k值多少合適）、2D Mask生成（是否使用SAM）、多尺度裁剪對性能的影響。

下面這個實驗很有意思，之前的3D實例分割是使用預訓練模型生成的，現在作者測試了直接使用3D實例分割真值的效果，后面的流程都一樣。結果顯示，使用真值后，在長尾類上的精度甚至超越了全監督方案Mask3D 9.1% AP。

定性結果，測試開放詞匯3D實例分割性能。借助zero-shot性能，OpenMask3D能夠分割"一個綠色的座位"、"印有花卉圖案的扶手椅"、"上面沒有衣服的床"、"壁紙前的沙發"這樣很特殊的目標。而且OpenMask3D還可以識別顏色、紋理、情境、背景等對象屬性，這個非常新奇。

OpenMask3D和OpenScene的定性比對比，由于OpenMask3D計算的是embedding和每個對象實例的每個mask特征向量之間的相似性，所以會產生更好的分割邊界。這里也推薦「3D視覺工坊」新課程《徹底搞懂基于Open3D的點云處理教程！》。

5. 總結

感覺大模型在場景理解上越來越偏向人類的思維方式了，以前的實例分割只能檢測預定義的類別，現在居然可以分割"印有花卉圖案的扶手椅"這樣的實例，不得不感嘆AI的發展速度。OpenMask3D聲稱是第一個開放詞匯的3D實例分割模型，給定任意文本就可以查詢3D目標，甚至可以識別幾何信息、材料、顏色、位置關系這種語義信息，關鍵還是zero-shot的。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

3D

3D

+關注

關注
9

文章
2910

瀏覽量
107779
AI

AI

+關注

關注
87

文章
31463

瀏覽量
269859
大模型

大模型

+關注

關注
2

文章
2533

瀏覽量
3006

原文標題：NeurlPS'23開源 | 首個！開放詞匯3D實例分割！

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關注！文章轉載請注明出處。

【原創&整理】Altium 常用3D設計封裝庫

本帖最后由 first-tech 于 2013-4-3 23:28 編輯 Altium designer 3D設計應用越來越廣，應網友要求，在此發布常用的3D設計封裝庫，歡迎大家

發表于 04-03 15:28

分享一些開源3D打印創新

嵌入式頂級程序員開源繼續推動3D打印行業的快速創新。如果您停下來想一想，這很有道理-存在3D打印機可以做其他事情。將這一理念與免費軟件和開源硬件相結合，可以幫助其他人參與改進其制

發表于 12-21 07:27

3D視頻目標分割與快速跟蹤

3D視頻目標分割與快速跟蹤_朱仲杰

發表于 01-07 16:00 ?0次下載

3D的感知技術及實踐

測量表面法向量估計幾何測量平面提取 3D重建從離散點云得到光滑曲面 3D重建ICP點云配準 3D重建SDF表面重建應用例子：從稀疏的點云中，構造出可以3D打印的模型

發表于 10-23 09:40 ?3270次閱讀

世界首座3D打印鋼橋正式開放

音圈模組3D打印的鋼橋開放啦。大家都知道，荷蘭首都阿姆斯特丹以其歷史建筑、運河和橋梁聞名于世，也是了世界上the first由3D打印的鋼橋。近日，這座橋已經向公眾開放啦。

發表于 08-11 17:34 ?477次閱讀

燈塔3D打印和Arduino開源分享

電子發燒友網站提供《燈塔3D打印和Arduino開源分享.zip》資料免費下載

發表于 11-02 09:29 ?0次下載

燈塔<b class='flag-5'>3D</b>打印和Arduino<b class='flag-5'>開源</b>分享

首個無監督3D點云物體實例分割算法

本文旨在尋求一種無監督的3D物體分割方法。我們發現，運動信息有望幫助我們實現這一目標。如下圖1所示，在左圖中的藍色/橙色圓圈內，一輛汽車上的所有點一起向前運動，而場景中其他的點則保持靜止。那么理論上，我們可以基于每個點的運動，將場景中屬于汽車的點和其他點

發表于 11-09 15:15 ?2498次閱讀

GMAW磁性球接頭3D打印開源

電子發燒友網站提供《GMAW磁性球接頭3D打印開源.zip》資料免費下載

發表于 06-16 15:34 ?0次下載

GMAW磁性球接頭<b class='flag-5'>3D</b>打印<b class='flag-5'>開源</b>

自研軟件賦能彈性體3D打印！清鋒LuxStudio&amp;amp;LuxFlow讓用戶3D打印游刃有余

導語：基于領先全球的3D打印柔性材料EM?23彈性材料，以及超高速光固化3D打印機iLuxPro及Lux3+，通過LuxStudio晶格設計&amp

發表于 02-17 10:23 ?766次閱讀

定制笛卡爾3D打印機開源分享

電子發燒友網站提供《定制笛卡爾3D打印機開源分享.zip》資料免費下載

發表于 06-26 11:33 ?5次下載

3D打印底盤開源分享

電子發燒友網站提供《3D打印底盤開源分享.zip》資料免費下載

發表于 07-06 14:43 ?1次下載

CVPR 2023 | 華科&amp;amp;MSRA新作：基于CLIP的輕量級開放詞匯語義分割架構

本文提出了 SAN 框架，用于開放詞匯語義分割。該框架成功地利用了凍結的 CLIP 模型的特征以及端到端的流程，并最大化地采用凍結的 CLIP 模型。簡介本文介紹了一種名為Side

發表于 07-10 10:05 ?1154次閱讀

NeurlPS&;apos;23開源 | 大規模室外NeRF也可以實時渲染

神經輻射場 (NeRF)是一種新穎的隱式三維重建方法，顯示出巨大的潛力，受到越來越多的關注。它能夠僅從一組照片中重建3D場景。然而，它的實時渲染能力，尤其是對于大規模場景的交互式實時渲染，仍然具有顯著的局限性。

發表于 11-08 16:41 ?1055次閱讀

基于深度學習的3D點云實例分割方法

3D實例分割（3DIS）是3D領域深度學習的核心問題。給定由點云表示的 3D 場景，我們尋求為每

發表于 11-13 10:34 ?2574次閱讀

三項SOTA！MasQCLIP：開放詞匯通用圖像分割新網絡

MasQCLIP在開放詞匯實例分割、語義分割和全景分割三項任務上均實現了SOTA，漲點非常明顯。

發表于 12-12 11:23 ?868次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

NeurlPS'23開源 | 首個！開放詞匯3D實例分割！

評論

【原創&整理】Altium 常用3D設計封裝庫

分享一些開源3D打印創新

3D視頻目標分割與快速跟蹤

3D的感知技術及實踐

世界首座3D打印鋼橋正式開放

燈塔3D打印和Arduino開源分享

首個無監督3D點云物體實例分割算法

GMAW磁性球接頭3D打印開源

自研軟件賦能彈性體3D打印！清鋒LuxStudio&amp;amp;LuxFlow讓用戶3D打印游刃有余

定制笛卡爾3D打印機開源分享

3D打印底盤開源分享

CVPR 2023 | 華科&amp;MSRA新作：基于CLIP的輕量級開放詞匯語義分割架構

NeurlPS&;apos;23開源 | 大規模室外NeRF也可以實時渲染

基于深度學習的3D點云實例分割方法

三項SOTA！MasQCLIP：開放詞匯通用圖像分割新網絡