FAIR和INRIA的合作研究提出一個(gè)在Mask-RCNN基礎(chǔ)上改進(jìn)的密集人體姿態(tài)評(píng)估模型DensePose-RCNN,適用于人體3D表面構(gòu)建等,效果很贊。并且提出一個(gè)包含50K標(biāo)注圖像的人體姿態(tài)COCO數(shù)據(jù)集,即將開(kāi)源。
密集人體姿勢(shì)估計(jì)是指將一個(gè)RGB圖像中的所有人體像素點(diǎn)映射到人體的3D表面。
我們介紹了DensePose-COCO數(shù)據(jù)集,這是一個(gè)大型ground-truth數(shù)據(jù)集,在50000張COCO的圖像上手工標(biāo)注了圖像-人體表面(image-to-surface)的對(duì)應(yīng)點(diǎn)。
我們提出了DensePose-RCNN架構(gòu),這是Mask-RCNN的一個(gè)變體,以每秒多幀的速度在每個(gè)人體區(qū)域內(nèi)密集地回歸特定部位的UV坐標(biāo)。
DensePose-COCO數(shù)據(jù)集
我們利用人工標(biāo)注建立從二維圖像到人體表面表示的密集對(duì)應(yīng)。如果用常規(guī)方法,需要通過(guò)旋轉(zhuǎn)來(lái)操縱表明,導(dǎo)致效率低下。相反,我們構(gòu)建了一個(gè)包含兩個(gè)階段的標(biāo)注流程,從而高效地收集到圖像-表面的對(duì)應(yīng)關(guān)系的標(biāo)注。
如下所示,在第一階段,我們要求標(biāo)注者劃定與可見(jiàn)的、語(yǔ)義上定義的身體部位相對(duì)應(yīng)的區(qū)域。我們指導(dǎo)標(biāo)注者估計(jì)被衣服遮擋住的身體部分,因此,比如說(shuō)穿著一條大裙子也不會(huì)使隨后的對(duì)應(yīng)標(biāo)注復(fù)雜化。
在第二階段,我們用一組大致等距的點(diǎn)對(duì)每個(gè)部位的區(qū)域進(jìn)行采樣,并要求注釋者將這些點(diǎn)與表面相對(duì)應(yīng)。為了簡(jiǎn)化這個(gè)任務(wù),我們通過(guò)提供六個(gè)相同身體部分的預(yù)渲染視圖來(lái)展開(kāi)身體部位的表面,并允許用戶在其中任何一個(gè)視圖上放置標(biāo)志。這允許注釋者通過(guò)從在六個(gè)選項(xiàng)中選擇一個(gè),而不用手動(dòng)旋轉(zhuǎn)表面來(lái)選擇最方便的視點(diǎn)。
我們?cè)跀?shù)據(jù)收集過(guò)程中使用了SMPL模型和SURREAL textures。
兩個(gè)階段的標(biāo)注過(guò)程使我們能夠非常有效地收集高度準(zhǔn)確的對(duì)應(yīng)數(shù)據(jù)。部位分割(part segmentation)和對(duì)應(yīng)標(biāo)注( correspondence annotation)這兩個(gè)任務(wù)基本是是同時(shí)進(jìn)行的,考慮到后一任務(wù)更具挑戰(zhàn)性,這很令人驚訝。我們收集了50000人的注釋,收集了超過(guò)500萬(wàn)個(gè)人工標(biāo)注的對(duì)應(yīng)信息。以下是在我們的驗(yàn)證集中圖像注釋的可視化:圖像(左),U(中)和V(右)是收集的注釋點(diǎn)的值。
DensePose-RCNN系統(tǒng)
與DenseReg類似,我們通過(guò)劃分表面來(lái)查找密集對(duì)應(yīng)。對(duì)于每個(gè)像素,需要確定:
它傾向于屬于哪個(gè)表面部位;
它對(duì)應(yīng)的部位的2D參數(shù)化的位置。
下圖右邊說(shuō)明了對(duì)表面的劃分和“與一個(gè)部位上的點(diǎn)的對(duì)應(yīng)”。
我們采用具有特征金字塔網(wǎng)絡(luò)( FPN)的Mask-RCNN結(jié)構(gòu),以及ROI-Align池化以獲得每個(gè)選定區(qū)域內(nèi)的密集部位標(biāo)簽和坐標(biāo)。
如下圖所示,我們?cè)赗OI-pooling的基礎(chǔ)上引入一個(gè)全卷積網(wǎng)絡(luò),目的是以下兩個(gè)任務(wù):
生成每像素的分類結(jié)果以選擇表面部位
對(duì)每個(gè)部位回歸局部坐標(biāo)
在推理過(guò)程,我們的系統(tǒng)使用GTX1080 GPU在320x240的圖像上以25fps的速度運(yùn)行,在800x1100的圖像上以4-5fps的速度運(yùn)行。
DensePose-RCNN系統(tǒng)可以直接使用注釋點(diǎn)作為監(jiān)督。但是,我們通過(guò)在原本未標(biāo)注的位置上“修補(bǔ)”監(jiān)督信號(hào)的值進(jìn)行取得了更好的結(jié)果。為了達(dá)到這個(gè)目的,我們采用一種基于學(xué)習(xí)的方法,首先訓(xùn)練一個(gè)“教師”網(wǎng)絡(luò):一個(gè)完全卷積神經(jīng)網(wǎng)絡(luò)(如下圖),它重新構(gòu)造了給定圖像的ground-truth值和segmentation mask。
我們使用級(jí)聯(lián)策略(cascading strategies)進(jìn)一步提高了系統(tǒng)的性能。通過(guò)級(jí)聯(lián),我們利用來(lái)自相關(guān)任務(wù)的信息,例如已經(jīng)被Mask-RCNN架構(gòu)成功解決的關(guān)鍵點(diǎn)估計(jì)和實(shí)例分割。這使我們能夠利用任務(wù)協(xié)同和不同監(jiān)督來(lái)源的互補(bǔ)優(yōu)勢(shì)。
-
3D
+關(guān)注
關(guān)注
9文章
2905瀏覽量
107755 -
RGB
+關(guān)注
關(guān)注
4文章
801瀏覽量
58623 -
INRIA
+關(guān)注
關(guān)注
0文章
2瀏覽量
6647
原文標(biāo)題:效果驚艷!FAIR提出人體姿勢(shì)估計(jì)新模型,升級(jí)版Mask-RCNN
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論