本文主要介紹商湯智能感知終端團隊,發(fā)表在 ECCV 2022 上的工作。針對3D交互雙手姿態(tài)估計問題,作者采用分而治之的策略,把交互的雙手姿態(tài)估計問題,解耦成兩個單手姿態(tài)估計問題。
作者提出了一種基于去遮擋和移除的3D交互手姿態(tài)估計框架,補全目標手被遮擋的部分,并移除另一只有干擾的手。此外,作者還構(gòu)建了一個大規(guī)模數(shù)據(jù)集Amodal InterHand Dataset (AIH),用以訓練手勢去遮擋和移除網(wǎng)絡(luò)。實驗結(jié)果表明,論文提出的框架在InterHand2.6M 和 Tzionas 兩個主流的公開數(shù)據(jù)集上,都獲得了顯著的性能提升。
? ? ?
Part 1動機和背景
圖1 本文算法(右)與baseline(左)的對比
手,是人和世界交互的主要工具。3D交互手姿態(tài)估計,指從單目彩色圖中,恢復出一個人兩只互相交互的手的骨架。它是人機交互、AR/VR、手語理解等諸多現(xiàn)實應用的基礎(chǔ)。 與被充分研究的單手姿態(tài)估計任務(wù)不同,交互手3D姿態(tài)估計是近兩年來剛興起的學術(shù)方向。
現(xiàn)存的工作會直接同時預測交互手的左右兩手的姿態(tài),而我們則另辟蹊徑,將交互手姿態(tài)估計任務(wù),解耦成左右兩手分別的單手姿態(tài)估計任務(wù)。這樣,我們就可以充分利用當下單手姿態(tài)估計技術(shù)的最新進展。 然而相比通常的單手姿態(tài)估計任務(wù)來說,交互手姿態(tài)估計有以下兩個難點:一是左右手間可能存在的嚴重的遮擋,難以估計被遮擋的手的姿態(tài);二是左右手顏色紋理相近有歧義性,預測一只手的姿態(tài)可能會因另一只手的存在而被干擾。
為了解決這兩個困難,我們提出了去遮擋和移除框架,旨在預測一只手的姿態(tài)時,補全它被遮擋的部分,并移除有干擾的另一只手的部分。由圖1的示例可見,在用去遮擋和移除框架后,交互手的圖片會恢復右手被遮擋的部分,也會移除有干擾的左手的部分,進而轉(zhuǎn)換成右手的單手姿態(tài)估計任務(wù)。
此外,我們還構(gòu)建了第一個大規(guī)模的合成交互手數(shù)據(jù)集(Amodal InterHand Dataset)。該數(shù)據(jù)集具有很多應用前景,如交互式雙手姿態(tài)估計、Amodal & modal的實例分割、以及手部去遮擋。
Part 2方法
圖2 本文提出的框架示意圖
本文的框架包括三個部分:手部非模態(tài)分割模塊(HASM)、手部去遮擋和移除模塊(HDRM)、單手姿態(tài)估計模塊(SHPE)。
我們首先用HASM去分割圖像中左右手的模態(tài)和非模態(tài)掩碼,在得到掩碼后,我們可以分別定位左右兩手的位置并對圖片進行裁剪。
之后,我們利用HDRM恢復手被遮擋的部分并移除另一只有干擾的手。
這樣,一個交互手的圖片會被轉(zhuǎn)換成左右兩手的單個手的圖片,通過SHPE后可以得到左右手分別的姿態(tài)。
2.1 手部非模態(tài)分割模塊(HASM)
我們基于mmsegmentation框架,從交互手的圖片中分割出四種掩碼:左手可見區(qū)域、左手完整區(qū)域、右手可見區(qū)域和右手完整區(qū)域。
2.2 手部去遮擋和移除模塊(HDRM)
圖3 HDRNet示意圖 以右手為例,首先根據(jù)2.1預測的掩碼,以右手完整部分掩碼為中心,裁剪得到圖片。
而HDRNet的輸入則有以下四部分拼接而成:(1)圖片右手被遮擋區(qū)域被涂黑;(2)右手可見部分掩碼;(3)I圖片左手多余區(qū)域被涂黑;(4)除左右兩手外的背景區(qū)域的掩碼。
我們借鑒經(jīng)典的inpainting方法中的網(wǎng)絡(luò)結(jié)構(gòu)(UNet + Partial Convolutions),并在其中加入了一些Transformer結(jié)構(gòu),來增強圖像特征、擴大感受野,以及讓網(wǎng)絡(luò)關(guān)注更重要的圖像區(qū)域。
網(wǎng)絡(luò)HDRNet最終預測出右手被遮擋區(qū)域的像素,以及左手多余區(qū)域背后背景的像素,這樣最終預測結(jié)果即為單個右手的圖片。
2.3 單手姿態(tài)估計模塊(SHPE)
由于SHPE不是本文的重點,因此我們使用了一個簡單有效的開源方法MinimalHand作為我們的baseline。
Part3AIH虛擬交互手數(shù)據(jù)集
圖4 AIH數(shù)據(jù)集中的樣例 為了充分訓練我們提出的HDRM網(wǎng)絡(luò),我們基于InterHand2.6M V1.0數(shù)據(jù)集,構(gòu)建了第一個大規(guī)模的虛擬合成的Amodal交互手數(shù)據(jù)集(AIH)。
AIH有大約300萬樣本組成,其中AIH_Syn 有220萬樣本,AIH_Render有70萬樣本。前者是將InterHand2.6M V1.0數(shù)據(jù)集的單個右手或單個左手的圖片,進行復制粘貼,合成的交互手圖片。
后者是將InterHand2.6M V1.0數(shù)據(jù)集的雙手mesh裝飾上紋理,經(jīng)過隨機的旋轉(zhuǎn)和平移,最終渲染到隨機的數(shù)據(jù)集背景上得到的圖片。圖4展示了AIH數(shù)據(jù)集的可視化效果。
Part 4實驗結(jié)果
我們在 InterHand2.6M V1.0 和 Tzionas 兩個主流的數(shù)據(jù)集上做了實驗。如表1和表2所示,定量實驗表明,我們提出的算法,取得了最優(yōu)的精度。
而且在耗時方面,在Tesla P40機器上單個樣本預測,HDRM(我們的主要貢獻點)只需要0.6ms,占整個框架預測時間47.2ms中很小一部分。更多可視化效果見圖5。
表1InterHand2.6M V1.0 數(shù)據(jù)集的定量結(jié)果對比
表2Tzionas 數(shù)據(jù)集的定量結(jié)果對比
圖5 更多可視化結(jié)果
審核編輯:劉清
-
人工智能
+關(guān)注
關(guān)注
1792文章
47437瀏覽量
238983 -
智能傳感器
+關(guān)注
關(guān)注
16文章
599瀏覽量
55351 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46032
原文標題:ECCV 2022 | 基于去遮擋和移除的3D交互雙手姿態(tài)估計
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論