1.摘要
最近將學(xué)習(xí)的方式引入點(diǎn)云配準(zhǔn)中取得了成功,但許多工作都側(cè)重于學(xué)習(xí)特征描述符,并依賴于最近鄰特征匹配和通過(guò)RANSAC進(jìn)行離群值過(guò)濾,以獲得姿態(tài)估計(jì)的最終對(duì)應(yīng)集合。在這項(xiàng)工作中,我們推測(cè)注意機(jī)制可以取代顯式特征匹配和RANSAC的作用,從而提出一個(gè)端到端的框架來(lái)直接預(yù)測(cè)最終的對(duì)應(yīng)集。我們使用主要由自注意力和交叉注意力的transformer層組成的網(wǎng)絡(luò)架構(gòu)并對(duì)其訓(xùn)練,以預(yù)測(cè)每個(gè)點(diǎn)位于重疊區(qū)域的概率及其在其他點(diǎn)云中的相應(yīng)位置。然后,可以直接根據(jù)預(yù)測(cè)的對(duì)應(yīng)關(guān)系估計(jì)所需的剛性變換,而無(wú)需進(jìn)一步的后處理。盡管簡(jiǎn)單,但我們的方法在3DMatch和ModelNet基準(zhǔn)測(cè)試中取得了一流的性能。我們的源代碼可以在https://github.com/yewzijian/RegTR.
2.引言
剛性點(diǎn)云配準(zhǔn)指找到對(duì)齊兩個(gè)點(diǎn)云的最佳旋轉(zhuǎn)和平移參數(shù)的問(wèn)題。點(diǎn)云配準(zhǔn)的通用解決方案流程如下:1)檢測(cè)關(guān)鍵點(diǎn),2)計(jì)算這些關(guān)鍵點(diǎn)的特征描述符,3)通過(guò)最近鄰匹配獲得假定的對(duì)應(yīng)關(guān)系,4)通常使用RANSAC以穩(wěn)健的方式估計(jì)剛性變換。近年來(lái),研究人員將學(xué)習(xí)的方式應(yīng)用于點(diǎn)云配準(zhǔn),這些工作中有許多側(cè)重于學(xué)習(xí)特征描述符,也有包括關(guān)鍵點(diǎn)檢測(cè),且最后兩個(gè)步驟通常保持不變,因?yàn)檫@些方法仍然需要最近鄰匹配和RANSAC來(lái)獲得最終轉(zhuǎn)換。這些算法在訓(xùn)練過(guò)程中沒(méi)考慮后處理,其性能對(duì)后處理的選擇很敏感,以選擇正確的對(duì)應(yīng)關(guān)系,如RANSAC中采樣的興趣點(diǎn)或距離閾值。
一些方法通過(guò)使用從局部特征相似性得分計(jì)算的軟對(duì)應(yīng)來(lái)估計(jì)對(duì)齊方式,從而避免了不可微的最近鄰匹配和RANSAC步驟。在這項(xiàng)工作中,我們采用了稍微不同的方法。我們注意到,這些工作中學(xué)習(xí)到的局部特色主要用于建立對(duì)應(yīng)關(guān)系。因此,讓網(wǎng)絡(luò)直接預(yù)測(cè)一組清晰的對(duì)應(yīng)關(guān)系,而不是學(xué)習(xí)好的特征。受到最近一系列工作的激勵(lì),這些工作利用transformer注意力層,以最少的后處理來(lái)預(yù)測(cè)各種任務(wù)的最終輸出。雖然注意機(jī)制以前曾被用于點(diǎn)云和圖像的配準(zhǔn)中,但這些工作主要是利用注意力層來(lái)聚集上下文信息,以學(xué)習(xí)更多的區(qū)分性的特征描述符,后續(xù)的RANSAC或最優(yōu)轉(zhuǎn)換步驟仍然經(jīng)常用來(lái)獲得最終的對(duì)應(yīng)關(guān)系。相比之下,Regis-tration Transformer(REGTR)利用注意力層直接輸出一組一致的最終點(diǎn)對(duì)應(yīng)關(guān)系,如圖1所示。由于網(wǎng)絡(luò)輸出清晰的對(duì)應(yīng)關(guān)系,可以直接估計(jì)所需的剛性轉(zhuǎn)換,而不需要額外的近鄰匹配和RANSAC步驟。
圖1 REGTR網(wǎng)絡(luò)流程圖
首先,REGTR主干使用點(diǎn)卷積來(lái)提取一組特征,同時(shí)對(duì)輸入的點(diǎn)云進(jìn)行下采樣。這兩個(gè)點(diǎn)云的特征被傳遞到多個(gè)transformer層,這些transformer層包含多頭自注意力和交叉注意力,方便全局信息聚合。同時(shí)通過(guò)位置編碼考慮點(diǎn)的位置,以允許網(wǎng)絡(luò)利用剛性約束糾正不好的對(duì)應(yīng)關(guān)系。然后,使用生成的特征預(yù)測(cè)下采樣點(diǎn)的相應(yīng)變換位置。此外,通過(guò)預(yù)測(cè)重疊概率分?jǐn)?shù)來(lái)計(jì)算剛性變換時(shí)預(yù)測(cè)的對(duì)應(yīng)關(guān)系。與常見(jiàn)的通過(guò)最近鄰特征匹配計(jì)算對(duì)應(yīng)關(guān)系的方法不同,該方法要求興趣點(diǎn)位于兩個(gè)點(diǎn)云中的相同位置,本文提出的網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練可以直接預(yù)測(cè)出相應(yīng)的點(diǎn)位置。因此,不需要對(duì)大量興趣點(diǎn)或產(chǎn)生可重復(fù)點(diǎn)的關(guān)鍵點(diǎn)檢測(cè)器進(jìn)行采樣,而是在簡(jiǎn)單的網(wǎng)格下采樣點(diǎn)上建立對(duì)應(yīng)關(guān)系。
盡管REGTR設(shè)計(jì)簡(jiǎn)單,但它在3DMatch和ModelNet數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。由于不需要在大量假對(duì)應(yīng)上運(yùn)行RANSAC,因此運(yùn)行時(shí)間也很快。總之,我們的貢獻(xiàn)是:
?通過(guò)自注意力和交叉關(guān)注力直接預(yù)測(cè)一組一致的最終點(diǎn)對(duì)應(yīng),而不使用常用的RANSAC或最優(yōu)轉(zhuǎn)換層。
?對(duì)多個(gè)數(shù)據(jù)集進(jìn)行了評(píng)估,雖然使用了少量對(duì)應(yīng)關(guān)系,但仍實(shí)現(xiàn)了精確配準(zhǔn),并展示了最先進(jìn)的性能。
3.定義問(wèn)題
4.方法設(shè)計(jì)
圖2 REGTR網(wǎng)絡(luò)整體結(jié)構(gòu)
4.1 下采樣和特征提取
4.2 交叉編碼的transformer層
前一節(jié)中的KPConv特征會(huì)線性投影到低維(d=256),然后饋入交叉編碼的transformer層(L=6)。每個(gè)交叉編碼的transformer有三個(gè)子層:1)分別在兩個(gè)點(diǎn)云上運(yùn)行的多頭自注意力層;2)使用其他點(diǎn)云信息更新特征的多頭交叉注意力層;3)位置型前饋網(wǎng)絡(luò)。交叉注意力使網(wǎng)絡(luò)能夠比較來(lái)自兩個(gè)不同點(diǎn)云的點(diǎn),而自注意力允許點(diǎn)在預(yù)測(cè)其自身變換位置時(shí)與同一點(diǎn)云內(nèi)的其他點(diǎn)交互。值得注意的是網(wǎng)絡(luò)權(quán)重在兩個(gè)點(diǎn)云之間共享,但在層之間不共享。
子層注意力。每個(gè)子層中多頭注意力定義為:
每個(gè)子層都應(yīng)用殘差連接和層歸一化,并使用pre-LN排序,因?yàn)楦菀變?yōu)化。query,key,value設(shè)置在相同點(diǎn)云的自注意力層中,這能夠關(guān)注到同一點(diǎn)云的其余部分。對(duì)于交叉注意力層,key和value被設(shè)置為來(lái)自其他點(diǎn)云的特征,這可以讓每個(gè)點(diǎn)與其他點(diǎn)云中的點(diǎn)交互。
位置型前饋網(wǎng)絡(luò)。該子層分別對(duì)每個(gè)關(guān)鍵點(diǎn)的特征進(jìn)行操作。和通常的實(shí)現(xiàn)方式一樣,在第一層后使用帶ReLU激活函數(shù)的兩層前饋網(wǎng)絡(luò),還應(yīng)用了殘差連接和層歸一化。
位置編碼。與以往使用注意力來(lái)學(xué)習(xí)區(qū)分特征的方案不同,本文的transformer層取代了RANSAC,即向每個(gè)transformer層的輸入添加正弦位置編碼來(lái)合并位置信息。
4.3解碼輸出
現(xiàn)在約束特征可用于預(yù)測(cè)出轉(zhuǎn)換的關(guān)鍵點(diǎn)坐標(biāo),因此使用兩層MLP獲取需要的坐標(biāo)。
4.4估計(jì)剛性變換
4.5損失函數(shù)
使用ground truth位姿進(jìn)行端對(duì)端的訓(xùn)練網(wǎng)絡(luò),采用如下?lián)p失進(jìn)行監(jiān)督:
圖3一對(duì)點(diǎn)云(左),密集點(diǎn)對(duì)應(yīng)的ground truth標(biāo)簽(中),下采樣關(guān)鍵點(diǎn)(右)
對(duì)應(yīng)關(guān)系損失。對(duì)重疊區(qū)域中關(guān)鍵點(diǎn)的預(yù)測(cè)變換位置應(yīng)用L1損失:
5.實(shí)驗(yàn)
本文以3DMatch和ModelNet40數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)與測(cè)試,以配準(zhǔn)召回率(RR),相對(duì)旋轉(zhuǎn)誤差(RRE)和相對(duì)平移誤差(RTE)為評(píng)價(jià)指標(biāo)。配準(zhǔn)結(jié)果
5.1數(shù)據(jù)集和結(jié)果
3DMatch。對(duì)比結(jié)果如表1所示,可以看出本文方法實(shí)現(xiàn)了跨場(chǎng)景的最高平均配準(zhǔn)召回率,在3DMatch和3DLoMatch基準(zhǔn)上都達(dá)到了最低的RTE和RRE,雖然只使用了少量的點(diǎn)進(jìn)行位姿估計(jì)。
表1 在3DMatch和3DLoMatch數(shù)據(jù)集上的性能對(duì)比
ModelNet40。跟基于對(duì)應(yīng)關(guān)系的端對(duì)端的配準(zhǔn)方法進(jìn)行比較,在正常重疊(ModelNet)和低重疊(ModelLoNet)下, REGTR在所有指標(biāo)上都大大優(yōu)于所有對(duì)比方法。本文的注意力機(jī)制能夠超越最佳轉(zhuǎn)換(RPM-Net)和RANSAC步驟(Predator)。定性結(jié)果如圖4所示。
表2 ModelNet40數(shù)據(jù)集評(píng)估結(jié)果
圖4 定性分析結(jié)果((a,b)為3DMatch,(c,d)為3DLoMatch, (e)為ModelNet40, (f)為ModelLoNet)
5.2分析對(duì)比
運(yùn)行時(shí)間。將本文方法和表3中的方法進(jìn)行對(duì)比,可以發(fā)現(xiàn)本文方法在100ms以下運(yùn)行,可以應(yīng)用于許多實(shí)時(shí)程序中。
表3 3DMatch測(cè)試集的運(yùn)行時(shí)間對(duì)比(ms)
注意力可視化。如圖5所示,當(dāng)該點(diǎn)位于非信息區(qū)域,因此該點(diǎn)會(huì)關(guān)注第一個(gè)transformer層中其他點(diǎn)云中的多個(gè)類似外觀區(qū)域(圖5a)。在第六層,該點(diǎn)確信其位置,并且主要關(guān)注其正確的對(duì)應(yīng)位置(圖5b)。自注意力(圖5c)顯示了利用豐富特征區(qū)域幫助定位到正確位置。
圖5 注意力權(quán)重可視化
5.3消融實(shí)驗(yàn)
本節(jié)進(jìn)一步對(duì)3DMatch數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn)研究,以了解各種成分的作用,結(jié)果如表4所示。
與RANSAC的比較。嘗試將RANSAC應(yīng)用于REGTR進(jìn)行預(yù)測(cè)對(duì)應(yīng),以確定性能是否進(jìn)一步提高。表4第7行顯示的配準(zhǔn)召回情況稍差。這表明RANSAC對(duì)已經(jīng)與剛性變換一致的預(yù)測(cè)對(duì)應(yīng)不再有益。
解碼方案。將坐標(biāo)解碼為坐標(biāo)的加權(quán)和(公式4)與使用MLP回歸坐標(biāo)的方法相比,將坐標(biāo)計(jì)算為加權(quán)和可以獲得更好的RTE和RRE,但配準(zhǔn)召回率更低,見(jiàn)表4第2行和第6行。
消融損失。表4第3-6行顯示了配置不同損失函數(shù)時(shí)的配準(zhǔn)性能。在沒(méi)有特征損失來(lái)指導(dǎo)網(wǎng)絡(luò)輸出的情況下,3DMatch和3DLoMatch的注冊(cè)召回率分別降低了1.6%和2.9%,使用circle損失也表現(xiàn)不佳,因?yàn)榫W(wǎng)絡(luò)無(wú)法有效地將位置信息合并到特征中。
表4 消融實(shí)驗(yàn)對(duì)比結(jié)果
6.局限性
本文使用具有二次復(fù)雜度的transformer層阻止了它在大規(guī)模點(diǎn)云上使用,并且只能將其應(yīng)用于下采樣后的點(diǎn)云。雖然直接預(yù)測(cè)對(duì)應(yīng)關(guān)系減輕了分辨率問(wèn)題,但更精細(xì)的分辨率可能會(huì)導(dǎo)致更高的性能。我們嘗試了具有線性復(fù)雜度的transformer層,但其性能較差,可能替代的解決方法包括使用稀疏注意力,或執(zhí)行從粗到細(xì)的配準(zhǔn)。
7.結(jié)論
本文提出了用于剛性點(diǎn)云配準(zhǔn)的REGTR網(wǎng)絡(luò),它使用多個(gè)transformer層直接預(yù)測(cè)清晰的點(diǎn)對(duì)應(yīng)關(guān)系,無(wú)需進(jìn)一步的最近鄰特征匹配或RANSAC步驟,即可根據(jù)對(duì)應(yīng)關(guān)系估計(jì)剛性變換。直接預(yù)測(cè)對(duì)應(yīng)關(guān)系克服了使用下采樣特征帶來(lái)的分辨率問(wèn)題,并且我們的方法在場(chǎng)景和對(duì)象點(diǎn)云數(shù)據(jù)集上都達(dá)到了最先進(jìn)的性能。
審核編輯:郭婷
-
檢測(cè)器
+關(guān)注
關(guān)注
1文章
867瀏覽量
47724 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24739
原文標(biāo)題:REGTR:帶有transformer的端對(duì)端點(diǎn)云對(duì)應(yīng)(CVPR2022)
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論