看到一張圖片,我們很容易就能猜測(cè)出圖中物體的立體模樣,但是機(jī)器能做到嗎?美國加州大學(xué)伯克利分校的研究人員就開發(fā)了一個(gè)框架,讓機(jī)器通過一張圖片就能還原出立體原型,并添加自然的紋理圖案。以下是論智對(duì)原論文的編譯,后附論文地址和實(shí)驗(yàn)結(jié)果展示視頻。
我們開發(fā)了一種學(xué)習(xí)框架,能夠通過一張圖片還原圖中物體的3D形狀、攝像角度及紋理。形狀用可變形的3D網(wǎng)格模型表示。
上圖中有許多小鳥,即使我們是第一次看到這種圖片上二維的鳥類,我們依然能推斷出它大概的3D形狀、了解拍攝的角度、甚至能猜出從另一個(gè)角度看它會(huì)是什么樣。我們能做到這些是因?yàn)橹拔覀円娺^的鳥類能讓我們對(duì)陌生小鳥有個(gè)大致輪廓,這些知識(shí)幫助我們還原這些案例的3D結(jié)構(gòu)。
在這篇文章中,我們展示了一個(gè)能根據(jù)單張圖片推斷3D表示的計(jì)算模型,如上圖所示,學(xué)習(xí)過程只需要一張標(biāo)注過的2D圖像,其中包括目標(biāo)對(duì)象的類別、前景掩碼和語義重點(diǎn)標(biāo)簽。
我們的目標(biāo)是生成一個(gè)預(yù)測(cè)器fθ(參數(shù)化設(shè)置為一個(gè)CNN),它可以從單張照片I中推斷出目標(biāo)物體的3D結(jié)構(gòu)。在這個(gè)項(xiàng)目中我們希望將物體的形狀用3D網(wǎng)格表示,這種表示比其他方法(比如probabilistic volumetric grids)有更多優(yōu)點(diǎn),例如可對(duì)紋理進(jìn)行模擬、進(jìn)行相應(yīng)的推理、表面水平推理和可解釋性。
我們提出的框架如下圖所示。輸入的圖像通過一個(gè)編碼器后到達(dá)由三個(gè)模塊組成的表征,它可以預(yù)測(cè)相機(jī)位置、物體形狀和花紋的參數(shù)。
用模型推斷目標(biāo)物的3D表示
首先,給定一張圖像I,我們預(yù)測(cè)fθ(I)≡(M, π),網(wǎng)格M和相機(jī)位置π用來捕捉對(duì)象的3D結(jié)構(gòu)。具體的推導(dǎo)過程可查看原論文。除了這些直接預(yù)測(cè)的方面,我們還學(xué)習(xí)了網(wǎng)格和類別水平語義重點(diǎn)之間的關(guān)系。當(dāng)我們?cè)谝?guī)范框架中使用特定類別的網(wǎng)格來表示形狀時(shí),跨實(shí)例的規(guī)律能幫助我們找到語義一致的定點(diǎn)位置,從而隱含地賦予這些頂點(diǎn)語義。
經(jīng)過這一步,我們就利用一張圖片I推斷出了相應(yīng)的相機(jī)位置π和形狀?V。同時(shí),我們還通過學(xué)習(xí)實(shí)例獨(dú)立的參數(shù)。推斷出了網(wǎng)格定點(diǎn)的位置V和語義重點(diǎn)A·V。
從圖像集合中學(xué)習(xí)
為了訓(xùn)練fθ,我們提出了一種不依賴于實(shí)際3D形狀和多角度圖像實(shí)例的監(jiān)督的方法,而是從帶有稀疏關(guān)鍵點(diǎn)和分割掩碼的圖像集中進(jìn)行學(xué)習(xí)。這種設(shè)置更加自然,并且容易獲得,特別是對(duì)會(huì)動(dòng)和可變形的物體,例如鳥類或其他動(dòng)物。想要獲取對(duì)象的掃描件甚至同一物體多個(gè)角度的照片是非常困難的,但對(duì)于大多數(shù)物體來說,獲取單張圖像相對(duì)更容易。
有了帶注釋的圖像集,我們通過制定一個(gè)目標(biāo)函數(shù)來訓(xùn)練fθ,該函數(shù)包含和實(shí)例相關(guān)的損失和先驗(yàn)。具體的實(shí)例能量術(shù)語(energy terms)可以保證預(yù)測(cè)的3D結(jié)構(gòu)與現(xiàn)有的掩碼和關(guān)鍵點(diǎn)一致,并且先驗(yàn)知識(shí)能幫助生成一些特征,例如光滑性。由于我們從許多實(shí)例中得到了通用的預(yù)測(cè)模型fθ,那么各個(gè)種類之間的通用結(jié)構(gòu)也能讓我們從中得到有意義的3D預(yù)測(cè),即使只有一個(gè)實(shí)例。
插入圖案預(yù)測(cè)
在我們的公式中,所有復(fù)原的形狀都有著共同的3D網(wǎng)格結(jié)構(gòu)——每種形狀都是平均形狀的變形。我們可以利用這一屬性來減少特定實(shí)例中的圖案以預(yù)測(cè)平均圖案的形狀。我們的平均形狀是個(gè)球體,它的表面圖案可以表示成一張名為Iuv的圖像,其值通過固定的UV映射映射到表面上(類似于將地球展開成平面圖)。
于是,我們將預(yù)測(cè)圖案的這個(gè)任務(wù)看作是推斷Iuv的像素值。該圖像可以被認(rèn)為是屬于目標(biāo)物體類別的典型外觀空間。例如,預(yù)測(cè)形狀中的特殊三角形總是會(huì)映射到Iuv中的特定區(qū)域,不管它如何變形。
將圖案參數(shù)化之后,UV圖像中每個(gè)像素的語義含義都一致,從而使預(yù)測(cè)模型更容易利用通用模式,例如鳥背和身體之間的相關(guān)性。
我們通過設(shè)置一個(gè)解碼器,將圖案預(yù)測(cè)模塊添加到框架中,該解碼器可以將潛在表示轉(zhuǎn)換成Iuv的空間向量。雖然直接用回歸計(jì)算Iuv的像素值是一種可行的方法,但這通常會(huì)導(dǎo)致模糊圖像的產(chǎn)生。相反,我們將此任務(wù)看成預(yù)測(cè)外觀流,我們不回歸Iuv像素的值,而是讓模塊輸出從原始輸入圖像復(fù)制來的像素顏色。如圖所示:
實(shí)驗(yàn)過程
模型設(shè)置好后,我們選擇CUB-200-2011數(shù)據(jù)集做實(shí)驗(yàn),該數(shù)據(jù)集有6000張訓(xùn)練和測(cè)試圖像,包括了200種鳥類。每張圖片都有邊界框進(jìn)行標(biāo)注,另外還有14個(gè)語義關(guān)鍵點(diǎn)標(biāo)注出了位置,同時(shí)還顯示出了前景的掩碼。我們從中挑選了近300張圖像,其中每張圖的關(guān)鍵點(diǎn)少于或等于6個(gè)。另外預(yù)測(cè)網(wǎng)絡(luò)的各個(gè)模塊示意圖如圖2所示,編碼器由一個(gè)在ImageNet上預(yù)訓(xùn)練的ResNet-18組成,緊接著是一個(gè)卷積層。
最終在CUB測(cè)試集上得到的重建結(jié)果如圖所示:
論文附錄和文后視頻中會(huì)有360度全景展示。
另外,我們還對(duì)目標(biāo)物體的圖案進(jìn)行了替換,將一張圖上的紋理替換到預(yù)測(cè)形狀上去。我們發(fā)現(xiàn),即使兩個(gè)視角可能不同,由于基礎(chǔ)的紋理圖像在空間上是一致的,所轉(zhuǎn)換的紋理在語義上也是一致的。
除此之外,我們還在PASCAL 3D+數(shù)據(jù)集上對(duì)車和飛機(jī)做了同樣的實(shí)驗(yàn),預(yù)測(cè)的形狀通常都很正常,不過圖案會(huì)出現(xiàn)較多錯(cuò)誤,因?yàn)槠嚿嫌蟹垂獾牡胤交蚴怯?xùn)練數(shù)據(jù)較少:
結(jié)語
我們展示了可以從單一角度預(yù)測(cè)物體3D結(jié)構(gòu)的框架。雖然這項(xiàng)結(jié)果非常令人興奮,但是我們并沒有提出一個(gè)通用的解決方案。最后,雖然我們只能使用實(shí)例的單一視圖進(jìn)行學(xué)習(xí),但對(duì)于有多個(gè)視圖的場(chǎng)景來說,我們的方法可能同樣適用,并產(chǎn)生更好的結(jié)果。
-
編碼器
+關(guān)注
關(guān)注
45文章
3651瀏覽量
134769 -
3D
+關(guān)注
關(guān)注
9文章
2894瀏覽量
107657
原文標(biāo)題:讓平面變立體——特定類別3D網(wǎng)格重建學(xué)習(xí)
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論