導讀
論文提出了一個用于三維點云分析的非參數網絡,Point-NN,它由純不可學習的組件組成:最遠點采樣(FPS)、k近鄰(k-NN)和三角函數以及池化操作。令人驚訝的是,它在各種3D任務上表現得很好,不需要任何參數或訓練,甚至超過了現有的完全訓練的模型。從這個基本的非參數模型出發,論文提出了兩個擴展。首先,Point-NN可以作為一個基礎架構框架,通過在上面插入線性層來構建參數化網絡Point-PN。由于具有優越的非參數基礎,所構建出的Point-PN僅用少量可學習參數表現出高性能-效率的權衡。其次,Point-NN可以被視為已經訓練過的三維模型的即插即用模塊。Point-NN捕獲互補的幾何知識,為不同的3D benchmarks來增強現有的方法,而無需再訓練。研究者希望該工作可以為社區用非參數方法理解三維點云提供一個線索。
動機
從PointNet++起,包括最遠點采樣(FPS)、k近鄰(k-NN)和池化操作在內,所有可學習模塊背后的非參數框架幾乎保持相同。很少有研究去探索它們的療效,論文提出了一個問題:
僅使用非參數組件,能否實現較高的三維點云分析性能?
貢獻
The Pipeline of Non-Parametric Networks
論文提出了一個非參數網絡,稱為PointNN,如上圖所示,PointNN由一個用于3D特征提取的非參數編碼器和一個用于特定任務識別的point-memory bank組成。該多階段編碼器應用FPS、kNN、三角函數和池化操作來逐步聚合局部幾何圖形,為點云生成一個高維的全局向量。論文只采用簡單的三角函數來揭示每個池化階段的局部空間模式,而沒有可學習的算子。然后,多階段編碼器提取到的訓練集特征,將其緩存作為point-memory bank。對于測試點云,bank通過樸素的特征相似度匹配輸出特定于任務的預測,從而驗證了編碼器的識別能力。
Two Applications of Point-NN
論文建議重新審視三維點云網絡中的不可學習組件,并首次開發一種非參數方法Point-NN進行三維點云分析
以Point-NN為基本框架,通過在Point-NN的每個階段插入線性層,引入了其 parameter-efficient 的變體 Point-PN(上圖a),它在沒有先進算子的情況下具有優越的性能
作為一個即插即用的模塊,PointNN可以在推理過程中直接提升各種3D任務中的現成的訓練過的模型(上圖b)
方法
Non-Parametric Networks
論文提出了Point-NN,一個純粹由不可學習的基本組件組成的網絡,以及簡單的三角函數的三維坐標編碼。Point-NN由一個Non-Parametric Encoder(NPEnc)和一個Point-Memory Bank(PoM)組成。給定一個用于形狀分類的輸入點云 ,NPEnc提取其高維全局特征 ,PoM通過相似度匹配產生分類結果:
Non-Parametric Encoder
Non-Parametric Encoder of Point-NN
如上圖所示,非參數編碼器首先將輸入點云進行Raw-point Embedding得到局部特征,再經過4階段的Local Geometry Aggregation逐步聚合局部特征得到全局特征。
Raw-point Embedding
論文參考Transformer中的positional encoding,對于輸入點云的一個點,利用三角函數將它嵌入到一個 維向量中:
其中,表示三個軸的embedding,表示初始化的特征維度。以 為例,對于通道索引 :
其中,α,β分別控制了其大小和波長。由于三角函數的固有性質,變換后的向量可以很好地編碼不同點之間的相對位置信息,并捕獲三維形狀的細粒度結構變化。
Local Geometry Aggregation
基于embedding,論文采用四階段網絡結構分層聚合空間局部特征。論文使用三角函數PosE(·)來提取局部特征,取代傳統最近鄰點局部特征提取算法,對于每個中心點 和其鄰域 :
Feature Expansion.論文首先地將鄰居特征 與中心特征沿特征維數concat來進行特征擴張:
Geometry Extraction.接著,論文通過相對位置編碼來得到每個 的權重,然后用均值和標準差對它們的坐標進行歸一化,記為,通過下面的公式得到加權后的K鄰域特征,該區域的局部幾何形狀就可以被隱式地編碼到特征中,而不需要任何可學習的參數。
Feature Aggregation。最后,同時利用最大池和平均池來進行局部特征聚合::
在4個Local Geometry Aggregation之后,再應用這兩個池化操作來得到點云的全局特征
Point-Memory Bank
Point-Memory Bank of Point-NN
Point-NN沒有使用傳統的可學習分類頭,而是采用了一個point-memory bank。如上圖所示,首先由Non-ParametricEncoder以無訓練的方式構造bank,然后在推理過程中通過相似度匹配輸出預測。
Memory Construction
point memory由一個feature memory 和一個label memory 。以圖像分類任務為例,假設給定的訓練集包含K個類別的N個點云,。通過上述非參數編碼器得到的N個全局特征進行編碼,同時將它們的ground-truth標簽轉換為一個one-hot編碼。然后分別將兩者沿著樣本維度concat,緩存為兩個矩陣:
其中,,
Similarity-based Prediction.
對于測試點云,利用非參數編碼器來提取其全局特征,然后通過上一步構造的bank進行兩個矩陣乘法來完成分類。
計算測試點云全局特征 與feature memory 之間的余弦相似度:
將label memory 中的one-hot標簽與 進行加權:
在 中,越相似的feature memory對最終分類logits的貢獻越大,反之亦然。通過這種基于相似性的標簽集成, point-memory bank可以在不經過任何訓練的情況下自適應地區分不同的點云實例。
Starting from Point-NN
在本節中將介紹兩個很有前途的Point-NN應用,它充分釋放了非參數組件在三維點云分析中的潛力。
As Architectural Frameworks
The Pipeline of Point-PN
表1 Step-by-step Construction of Point-PN
Point-NN可以擴展到可學習的參數網絡(Point-PN),不需要添加復雜的算子或太多的參數。只需要簡單地通過在編碼器的每個階段插入線性層來構造參數微分。使用圖中A~E處的線性層的性能增益如表1所示:
首先用可學習分類器替換point-memory bank(上圖A位置),這個輕量級的版本在ModelNet40上就實現了90.3%的分類準確率,只有0.3M的參數
為了更好地提取多尺度層次結構,在編碼器的每個stage(上圖C, D, E位置)都添加了簡單的線性層。Point-PN在0.8M參數下達到了競爭性的93.8%的精度。
As Plug-and-play Modules
Point-NN可以在不進行額外re-training的情況下增強已經訓練過的三維模型。
分類任務
Complementary Characteristics of Point-NN
對于shape分類任務,論文直接通過線性插值融合Point-NN和現成模型的分類結果。這種巧妙的設計將兩種類型的知識進行集成:來自Point-NN的low-level結構信號和來自訓練網絡的high-level語義信號。
如上圖所示,通過Point-NN提取的點云特征在清晰的三維結構周圍產生了較高的響應值,例如,飛機的翼尖、椅子的腿和燈桿。相比之下,訓練過的PointNet++更注重具有語義豐富的3D結構,這些結構包括飛機的主體、椅子的底部和燈罩
Why Do Trigonometric Functions Work?
如上圖所示,對于輸入點云,論文將其低頻和高頻幾何進行可視化,并與Point-NN的特征響應進行比較,其中較深的顏色表示更高的響應。如圖所示,Point-NN可以聚焦于點云急劇變化的高頻三維結構。
分割、檢測任務
論文直接采用已經訓練過的模型的編碼器來提取點云特征,只將所提的point-memory bank在上面進行即插即用。利用相似度匹配和傳統的可學習分類頭之間的互補知識實現性能的改進。
實驗
Point-NN
Shape Classification
表2 Shape Classification on the Real-world ScanObjectNN
表3 Shape Classification on Synthetic ModelNet40
如表2、表3所示,Point-NN對真實世界和合成點云都獲得了良好的分類精度,表明了沒有任何參數的Point-NN有效性和通用性。
Few-shot Classification
表5 Few-shot Classification on ModelNet40
如表5所示,與現有的訓練模型相比,Point-NN的few-shot性能顯著超過了第二好的方法。這是由于訓練樣本有限,具有可學習參數的傳統網絡嚴重存在過擬合問題。
Part Segmentation
表4 Part Segmentation on ShapeNetPart
如表4所示,70.4% mIoU表明非參數網絡Point-NN拓張的分割網絡,也可以產生執行良好的點級特征,并捕獲鑒別特征的細粒度空間理解。
3D Object Detection
表6 3D Object Detection on ScanNetV2
將Point-NN作為非參數分類頭,配合兩種流行的三維檢測器VoteNet和3DETR-m提取類別無關的3D region proposals.如表6所示,不經過歸一化處理的點坐標可以大大提高Point-NN的AP分數,保留了原始場景中更多物體三維位置的位置線索。
Ablation Study
表7 Ablation Study of Non-Parametric Encoder
Point-PN
Shape Classification
如表2、表3所示,Point-PN在現實世界和合成的三維識別方面都取得了有競爭的結果。在ScanObjectNN上,與12.6M的大模型PointMLP相比,參數少16×,推理速度快6×,精度超過1.9%
Part Segmentation
對于表4中的點向分割任務,Point-PN也取得了具有競爭力的性能,mIoU為86.6%。與CurveNet相比,具有簡單局部幾何聚合的Point-PN可以節省28小時的訓練時間,推理速度快6×。
Ablation Study
如圖1所示,論文提出了如何從Point-NN逐步構造Point-PN,可以觀察到“1+2”(Geometry Extraction step前面加一層線性層,后面加兩層)的 Point-PN表現最好,而更容易學習的層,“2+2”會損害性能
Plug-and-play
Shape Classification
Plug-and-play for Shape Classification
如上圖所示,Point-NN有效地提高了現有的方法的性能,如PointNet和PointMLP的準確率提高了2.0%
Segmentation and Detection
Plug-and-play for Part Segmentation and 3D Object Detection
如上圖所示,Point-NN對于分割和檢測網絡具有通用的增強能力。
總結
論文重新討論了現有三維模型中的不可學習組件,并提出了 Point-NN,一個用于三維點云分析的純非參數網絡。沒有任何參數或訓練, Point-NN在各種三維任務上取得了良好的準確性。從Point-NN開始,論文提出了它的兩個很有前途的應用程序:針對PointPN的架構框架和用于提高性能的即插即用模塊。大量的實驗已經證明了其有效性和意義。在未來的工作中,研究者將重點探索更先進的非參數模型,具有更廣泛的三維點云分析應用場景。
審核編輯 :李倩
-
檢測器
+關注
關注
1文章
869瀏覽量
47759 -
三維
+關注
關注
1文章
512瀏覽量
29022 -
三維模型
+關注
關注
0文章
52瀏覽量
13142
原文標題:CVPR 2023 | Point-NN: 即插即用,無需訓練的非參數點云分析網絡!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論