色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于去遮擋和移除的3D交互手姿態(tài)估計框架

工程師鄧生 ? 來源:商湯學術(shù) ? 作者:孟浩、金晟 ? 2022-09-14 16:30 ? 次閱讀

本文主要介紹商湯智能感知終端團隊,發(fā)表在 ECCV 2022 上的工作。針對3D交互雙手姿態(tài)估計問題,作者采用分而治之的策略,把交互的雙手姿態(tài)估計問題,解耦成兩個單手姿態(tài)估計問題。

作者提出了一種基于去遮擋和移除的3D交互手姿態(tài)估計框架,補全目標手被遮擋的部分,并移除另一只有干擾的手。此外,作者還構(gòu)建了一個大規(guī)模數(shù)據(jù)集Amodal InterHand Dataset (AIH),用以訓練手勢去遮擋和移除網(wǎng)絡(luò)。實驗結(jié)果表明,論文提出的框架在InterHand2.6M 和 Tzionas 兩個主流的公開數(shù)據(jù)集上,都獲得了顯著的性能提升。

7bb4cbfa-305d-11ed-ba43-dac502259ad0.png ? ? ?

Part 1動機和背景

7c04d99c-305d-11ed-ba43-dac502259ad0.jpg

圖1 本文算法(右)與baseline(左)的對比

手,是人和世界交互的主要工具。3D交互手姿態(tài)估計,指從單目彩色圖中,恢復出一個人兩只互相交互的手的骨架。它是人機交互、AR/VR、手語理解等諸多現(xiàn)實應用的基礎(chǔ)。 與被充分研究的單手姿態(tài)估計任務(wù)不同,交互手3D姿態(tài)估計是近兩年來剛興起的學術(shù)方向。

現(xiàn)存的工作會直接同時預測交互手的左右兩手的姿態(tài),而我們則另辟蹊徑,將交互手姿態(tài)估計任務(wù),解耦成左右兩手分別的單手姿態(tài)估計任務(wù)。這樣,我們就可以充分利用當下單手姿態(tài)估計技術(shù)的最新進展。 然而相比通常的單手姿態(tài)估計任務(wù)來說,交互手姿態(tài)估計有以下兩個難點:一是左右手間可能存在的嚴重的遮擋,難以估計被遮擋的手的姿態(tài);二是左右手顏色紋理相近有歧義性,預測一只手的姿態(tài)可能會因另一只手的存在而被干擾。

為了解決這兩個困難,我們提出了去遮擋和移除框架,旨在預測一只手的姿態(tài)時,補全它被遮擋的部分,并移除有干擾的另一只手的部分。由圖1的示例可見,在用去遮擋和移除框架后,交互手的圖片會恢復右手被遮擋的部分,也會移除有干擾的左手的部分,進而轉(zhuǎn)換成右手的單手姿態(tài)估計任務(wù)。

此外,我們還構(gòu)建了第一個大規(guī)模的合成交互手數(shù)據(jù)集(Amodal InterHand Dataset)。該數(shù)據(jù)集具有很多應用前景,如交互式雙手姿態(tài)估計、Amodal & modal的實例分割、以及手部去遮擋。

Part 2方法

7c365d00-305d-11ed-ba43-dac502259ad0.jpg

圖2 本文提出的框架示意圖

本文的框架包括三個部分:手部非模態(tài)分割模塊(HASM)、手部去遮擋和移除模塊(HDRM)、單手姿態(tài)估計模塊(SHPE)。

我們首先用HASM去分割圖像中左右手的模態(tài)和非模態(tài)掩碼,在得到掩碼后,我們可以分別定位左右兩手的位置并對圖片進行裁剪。

之后,我們利用HDRM恢復手被遮擋的部分并移除另一只有干擾的手。

這樣,一個交互手的圖片會被轉(zhuǎn)換成左右兩手的單個手的圖片,通過SHPE后可以得到左右手分別的姿態(tài)。

2.1 手部非模態(tài)分割模塊(HASM)

我們基于mmsegmentation框架,從交互手的圖片中分割出四種掩碼:左手可見區(qū)域、左手完整區(qū)域、右手可見區(qū)域和右手完整區(qū)域。

2.2 手部去遮擋和移除模塊(HDRM)

7c4e1c60-305d-11ed-ba43-dac502259ad0.jpg

圖3 HDRNet示意圖 以右手為例,首先根據(jù)2.1預測的掩碼,以右手完整部分掩碼為中心,裁剪得到圖片。

而HDRNet的輸入則有以下四部分拼接而成:(1)圖片右手被遮擋區(qū)域被涂黑;(2)右手可見部分掩碼;(3)I圖片左手多余區(qū)域被涂黑;(4)除左右兩手外的背景區(qū)域的掩碼。

我們借鑒經(jīng)典的inpainting方法中的網(wǎng)絡(luò)結(jié)構(gòu)(UNet + Partial Convolutions),并在其中加入了一些Transformer結(jié)構(gòu),來增強圖像特征、擴大感受野,以及讓網(wǎng)絡(luò)關(guān)注更重要的圖像區(qū)域。

網(wǎng)絡(luò)HDRNet最終預測出右手被遮擋區(qū)域的像素,以及左手多余區(qū)域背后背景的像素,這樣最終預測結(jié)果即為單個右手的圖片。

2.3 單手姿態(tài)估計模塊(SHPE)

由于SHPE不是本文的重點,因此我們使用了一個簡單有效的開源方法MinimalHand作為我們的baseline。

Part3AIH虛擬交互手數(shù)據(jù)集

7c741712-305d-11ed-ba43-dac502259ad0.jpg

圖4 AIH數(shù)據(jù)集中的樣例 為了充分訓練我們提出的HDRM網(wǎng)絡(luò),我們基于InterHand2.6M V1.0數(shù)據(jù)集,構(gòu)建了第一個大規(guī)模的虛擬合成的Amodal交互手數(shù)據(jù)集(AIH)。

AIH有大約300萬樣本組成,其中AIH_Syn 有220萬樣本,AIH_Render有70萬樣本。前者是將InterHand2.6M V1.0數(shù)據(jù)集的單個右手或單個左手的圖片,進行復制粘貼,合成的交互手圖片。

后者是將InterHand2.6M V1.0數(shù)據(jù)集的雙手mesh裝飾上紋理,經(jīng)過隨機的旋轉(zhuǎn)和平移,最終渲染到隨機的數(shù)據(jù)集背景上得到的圖片。圖4展示了AIH數(shù)據(jù)集的可視化效果。

Part 4實驗結(jié)果

我們在 InterHand2.6M V1.0 和 Tzionas 兩個主流的數(shù)據(jù)集上做了實驗。如表1和表2所示,定量實驗表明,我們提出的算法,取得了最優(yōu)的精度。

而且在耗時方面,在Tesla P40機器上單個樣本預測,HDRM(我們的主要貢獻點)只需要0.6ms,占整個框架預測時間47.2ms中很小一部分。更多可視化效果見圖5。

表1InterHand2.6M V1.0 數(shù)據(jù)集的定量結(jié)果對比

7c9c08da-305d-11ed-ba43-dac502259ad0.jpg

表2Tzionas 數(shù)據(jù)集的定量結(jié)果對比

7cbac54a-305d-11ed-ba43-dac502259ad0.jpg7cd8c9dc-305d-11ed-ba43-dac502259ad0.jpg

圖5 更多可視化結(jié)果



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47437

    瀏覽量

    238983
  • 智能傳感器
    +關(guān)注

    關(guān)注

    16

    文章

    599

    瀏覽量

    55351
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1698

    瀏覽量

    46032

原文標題:ECCV 2022 | 基于去遮擋和移除的3D交互雙手姿態(tài)估計

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Google DeepMind發(fā)布Genie 2:打造交互3D虛擬世界

    交互式體驗。 據(jù)了解,Genie 2是個自回歸潛在擴散模型,它基于大型視頻數(shù)據(jù)集進行訓練。通過自動編碼器,視頻中的潛在幀被傳遞到大型Transformer動力學模型中。該模型采用與大語言模型類似的因果掩碼進行訓練,從而實現(xiàn)了對3D
    的頭像 發(fā)表于 12-05 14:16 ?528次閱讀

    文理解2.5D3D封裝技術(shù)

    隨著半導體行業(yè)的快速發(fā)展,先進封裝技術(shù)成為了提升芯片性能和功能密度的關(guān)鍵。近年來,作為2.5D3D封裝技術(shù)之間的一種結(jié)合方案,3.5D封裝技術(shù)逐漸走向前臺。
    的頭像 發(fā)表于 11-11 11:21 ?1368次閱讀
    <b class='flag-5'>一</b>文理解2.5<b class='flag-5'>D</b>和<b class='flag-5'>3D</b>封裝技術(shù)

    一種全新開源SfM框架MASt3R

    運動恢復結(jié)構(gòu)(SfM)是計算機視覺領(lǐng)域個長期存在的問題,旨在根據(jù)每個相機拍攝的圖像來估計場景的3D幾何結(jié)構(gòu)以及觀測該場景的相機的參數(shù)。由于它方便地同時為相機和地圖提供信息,因此構(gòu)成了許多實用計
    的頭像 發(fā)表于 10-28 14:13 ?695次閱讀
    <b class='flag-5'>一種</b>全新開源SfM<b class='flag-5'>框架</b>MASt<b class='flag-5'>3</b>R

    3D建模的重要內(nèi)容和應用

    3D建模是一種技術(shù),通過計算機軟件創(chuàng)建虛擬三維模型,模擬現(xiàn)實世界中的物體或場景。這項技術(shù)廣泛應用于建筑設(shè)計、電影制作、游戲開發(fā)、工程仿真等領(lǐng)域。下面古河云科技將介紹些與3D建模相關(guān)的
    的頭像 發(fā)表于 06-21 14:48 ?658次閱讀

    英倫科技10.1寸裸眼3D平板電腦的五大特點

    選擇英倫科技的裸眼3D平板電腦,就是選擇了一種全新的視覺體驗。它的裸眼3D視頻觀看功能、光場裸眼3D技術(shù)、卓越的硬件配置、豐富的軟件支持以及人性化的設(shè)計理念,都是您不容錯過的選擇。現(xiàn)在
    的頭像 發(fā)表于 06-12 15:15 ?446次閱讀
    英倫科技10.1寸裸眼<b class='flag-5'>3D</b>平板電腦的五大特點

    什么是光場裸眼3D

    光場裸眼3D技術(shù),是一種無需任何輔助設(shè)備(如3D眼鏡或頭顯)即可產(chǎn)生真實三維效果的技術(shù)。它通過特殊的顯示設(shè)備,精確控制光線的方向和強度,使觀察者在不同的角度都能看到清晰、連續(xù)的立體圖像。這種技術(shù)的核心在于模擬人眼對真實世界的觀察
    的頭像 發(fā)表于 05-27 14:21 ?1174次閱讀
    什么是光場裸眼<b class='flag-5'>3D</b>?

    3D建模的特點和優(yōu)勢都有哪些?

    3D建模是一種用于創(chuàng)建三維對象的過程,它在許多領(lǐng)域都有著廣泛的應用,包括動畫、游戲開發(fā)、建筑設(shè)計、工程以及制造業(yè)等。下面古河云科技將介紹些關(guān)于3D建模的內(nèi)容詳情,包括它的特點、優(yōu)勢以
    的頭像 發(fā)表于 05-13 16:41 ?2507次閱讀

    機器人3D視覺引導系統(tǒng)框架介紹

    通過自主開發(fā)的3D掃描儀可獲準確并且快速地獲取場景的點云圖像,通過3D識別算法,可實現(xiàn)在對點云圖中的多種目標物體進行識別和位姿估計
    發(fā)表于 04-29 09:31 ?348次閱讀
    機器人<b class='flag-5'>3D</b>視覺引導系統(tǒng)<b class='flag-5'>框架</b>介紹

    包含具有多種類型信息的3D模型

    、安全和高效的建筑系統(tǒng),讓居住者能夠擁有可持續(xù)、彈性舒適且符合人體工程學的建筑。建筑信息模型 (BIM) 是建筑工程師在建筑物和其他結(jié)構(gòu)設(shè)計中使用的一種3D建模過程。BIM軟件提供了個基于模型
    發(fā)表于 03-28 17:18

    有了2D NAND,為什么要升級到3D呢?

    2D NAND和3D NAND都是非易失性存儲技術(shù)(NVM Non-VolatileMemory),屬于Memory(存儲器)的一種
    的頭像 發(fā)表于 03-17 15:31 ?1062次閱讀
    有了2<b class='flag-5'>D</b> NAND,為什么要升級到<b class='flag-5'>3D</b>呢?

    3D HMI應用場景和發(fā)展趨勢

    的革命性趨勢。本文將探討3DHMI設(shè)計的概念、優(yōu)勢、應用場景以及未來發(fā)展趨勢。3DHMI設(shè)計的概念3DHMI設(shè)計是一種基于三維界面和人機交互
    的頭像 發(fā)表于 02-19 13:27 ?1240次閱讀
    <b class='flag-5'>3D</b> HMI應用場景和發(fā)展趨勢

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動起來的新方法!

    因此,本文研究者的目標是實現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D一種全新的單階段的全類別擴散模型,能直接根據(jù)模型文字或單張圖片的輸入,生成
    的頭像 發(fā)表于 01-30 16:20 ?884次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成只需30秒!讓文本、圖像都動起來的新方法!

    Exaddon開發(fā)了一種低于20μm間距進行細間距探測的3D微打印探針

    總部位于瑞士的微型 3D 打印公司Exaddon 開發(fā)了能夠以低于 20 μm 間距進行細間距探測的 3D微打印探針。細間距探針測試是用于測試半導體芯片的極其復雜且精確的過程。
    的頭像 發(fā)表于 01-26 18:23 ?1805次閱讀

    怎么使用激光掃描技術(shù)(VCJ)增強的3D打印呢?

    一種創(chuàng)新型的激光掃描技術(shù)可以快速地實現(xiàn)多種材料3D打印,實現(xiàn):結(jié)構(gòu)更精細,材料更多樣。
    的頭像 發(fā)表于 01-15 16:47 ?581次閱讀

    介紹一種使用2D材料進行3D集成的新方法

    美國賓夕法尼亞州立大學的研究人員展示了一種使用2D材料進行3D集成的新穎方法。
    的頭像 發(fā)表于 01-13 11:37 ?1092次閱讀
    主站蜘蛛池模板: 娇小萝被两个黑人用半米长| 2019一級特黃色毛片免費看| 大睾丸内射老师| 最近中文字幕高清中文字幕MV| 亚洲视频999| 91久久偷偷看嫩草影院无费| 啊轻点啊再深点视频免费| 国产电影一区二区三区| 国产区在线不卡视频观看| 国产精品成人免费观看| 快播理论片| 午夜福利院电影| 3dbdsm变态videos高清| 日本吃孕妇奶水免费观看| 亚洲精品国产高清嫩草影院| 99国产亚洲精品无码成人| 国产片MV在线观看| 噜噜噜狠狠夜夜躁| 亚洲 欧美 国产 综合 播放 | 99久久精品毛片免费播放| 国产成人精品三级在线| 美女脱了内裤张开腿让男人爽| 手机观看毛片| V8成品人视频| 欧美丰满白嫩bbxx| 欲奴第一季在线观看全集| 国产精品久久久久久久久久免费 | bbwvideoa欧美老妇| 久久精品一区二区影院| 亚洲1卡二卡3卡4卡新区在线| 不卡无线在一二三区| 蜜桃成熟时2电影免费观看d| 一二三四韩国免费观看| 僵尸女av| 中文字幕永久在线观看| 久久视频精品3线视频在线观看| 亚洲精品91| 久久99亚洲AV无码四区碰碰| 亚洲免费观看| 老头操美女| china野外18:19|