論文提出的3D人體位姿預測框架:先使用一個輕量級CNN提取2D人體位姿特征和粗略估計3D人體位姿,然后用RNN學習時序相關性以得到流暢的三維人體位姿初步預測結果,最后使用自監督學習引導機制,根據三維幾何一致性,優化從2D到3D的預測結果。項目主頁:http://www.sysu-hcp.net/3d_pose_ssl/
中山大學使用自監督學習精準預測三維人體位姿。新方法減少了對3D標記數據的依賴,還能通過使用現有的大量2D標記數據提高最終預測結果,實現低成本、可擴展的3D人體位姿估計實際應用。
3D人體位姿估計是當前的一個熱點研究課題,也具有廣泛的應用潛力。
深度神經網絡已經在2D人體位姿估計上取得了優異的結果,如果想使用深度學習,在3D人體位姿估計中也取得同樣的效果,那么首先就需要大量的3D人體位姿標記數據。
但問題是,現在沒有大量帶精準標記的3D人體位姿數據。
在一篇最新發表于《IEEE模式分析與機器智能會刊》(PAMI) 的論文[1]中,中山大學的研究人員提出了一種新的方法,讓計算機通過自監督學習的方式,精準預測視頻片段中的三維人體位姿,大幅減少對3D標記數據的依賴。
“我們通過有效結合二維時空關系和三維幾何知識,提出了一個由自監督學習引導的快速精準三維人體位姿估計方法。”論文一作、目前在加州大學洛杉磯分校 (UCLA) 朱松純教授實驗室擔任博士后研究員的王可澤博士告訴新智元。在完成這篇論文時,王可澤還是中山大學和香港理工大學的博士生,導師是中山大學HCP人機物智能融合實驗室的林倞教授 (林教授也參與了這項工作) 和香港理工大學的張磊博士。
新方法在Human3.6M基準測試中的一些可視化結果。(a)為2D-to-2D位姿變換模塊估計的中間3D人體位姿,(b)為3D-to-2D位姿映射模塊細化的最終3D人體位姿,(c)為ground-truth。估計的3D位姿被重新映射到圖像中,并在側面 (圖像旁邊) 顯示出來。如圖所示,與(a)相比,(b)中預測的3D位姿得到了顯著的修正。紅色和綠色分別表示人體左側和右側。來源:論文《自監督學習引導的人體三維位姿估計》[1]
“該方法采用輕量級的神經網絡,有效減少了計算量,并克服了三維人體位姿標注數據不夠豐富的難點,能在實際應用場景中流暢穩定地進行三維人體位姿預測。”
在單個的Nvidia GTX1080 GPU上運行時,新方法處理一幅圖像只需要51毫秒,而其他方法需要880毫秒。
使用自監督學習,減少對3D標記數據的依賴
這篇論文題為《自監督學習引導的人體三維位姿估計》(3D Human Pose Machines with Self-supervised Learning),作者是王可澤,林倞,江宸瀚,錢晨和魏朋旭。
研究人員向新智元介紹,他們這項工作的背景,是現有的基于彩色圖像視頻數據的三維人體位姿估計研究,在實際場景應用中有兩大明顯的不足:
一是所需要的計算量大:當前,絕大多數的現有三維人體位姿估計方法,都依賴最先進的二維人體位姿估計來獲得精準的二維人體位姿,然后再構建神經網絡,實現從2D到3D人體位姿的映射。由于采用的二維人體位姿估計方法往往需要龐大的計算量,再加上所構建的神經網絡自身的運算開銷,難以滿足三維人體位姿估計在實際應用中的時間需求;
二是應用效果不理想:當前的三維人體位姿數據集都是在受控的實驗環境下創建的 (攝像機視角固定、背景單一),所包含的三維標注信息不夠豐富,不能全面反映真實生活場景,使得現有方法所預測出的三維人體位姿質量參差不齊,魯棒性差。
為了解決上述的問題,研究人員進行了深入的研究和分析,嘗試利用海量的二維人體位姿數據來彌補三維標注信息不豐富的問題。
同時,他們受二維和三維空間彼此存在的聯系啟發,根據三維人體位姿的映射是二維人體位姿這一幾何特性,結合之前的自監督學習工作(參考王可澤博士等人此前的論文[2]),制定了2D到3D變換和3D到2D映射的自監督學習任務。
這一關鍵的2D和3D相互轉換自監督學習模塊架構示意如下:
3D到2D人體位姿映射模塊訓練階段示意圖
3D到2D人體位姿映射模塊測試階段示意圖
在這項研究中,作者使用MPII數據集,從圖像中提取2D人體位姿。然后,使用另一個名為“Human3.6M”的數據集,提取3D的ground truth數據。Human3.6M數據集包含有360萬張在實驗室拍攝的照片,任務包括跑步、散步、吸煙、吃飯,等等。
初始化后,他們將預測的2D人體位姿和3D人體位姿替換為2D和3D的 ground-truth,從而以自監督學習的方式優化模型。
3D-to-2D人體位姿映射模塊的學習目標,就是將3D人體位姿的2D映射與預測的2D人體位姿兩者間的差異最小化,以實現對中間3D人體位姿預測的雙向校正 (或細化)。
“模型采用了序列訓練的方法來捕獲人體多個部位之間的長期時間一致性,并通過一種新的自監督校正機制進一步增強這種一致性,這包含兩個對偶學習任務,即2D-to-3D位姿變換和3D-to-2D位姿映射,從而生成幾何一致的3D位姿預測。”
經過自監督校正以后的結果 (Ours) 比沒有經過校正的 (Ours w/o self-correction) 更接近 Ground-truth。來源:論文
未來方向:非受限條件下三維人體位姿預測
研究人員在論文中指出,這項工作的主要貢獻有三方面:
提出了一種新的模型,可以學習整合豐富的時空長程依賴性和3D幾何約束,而不是依賴于特定的手動定義的身體平滑度或運動學約束;
開發了一種簡單有效的自監督校正機制,以結合3D位姿幾何結構信息;這一創新機制也可能啟發其他3D視覺任務;
提出了自監督校正機制,使模型能夠使用足夠的2D人體位姿數據,顯著提高3D人體位姿估計的性能。
新方法 (Ours,紅框標識) 顯著優于其他同類方法,綠色代表右側手腳,紅色代表左側 (下同):最右邊一列為Ground-truth;使用Human3.6M數據集。
新方法 (Ours) 與ICCV-17微軟危夷晨組在MPII數據集上的結果比較,后者使用弱監督遷移學習將2D和3D標記混合在一個統一的深度學習框架里,在2D和3D基準上都取得了較好的結果。新方法在3D預測上更進一步。
自監督學習的價值顯然是人工智能研究的一個重點。
其他方法也采用了類似的“弱監督”方法來預測位姿,甚至捕捉人體運動。例如,加州大學伯克利分校Sergey Levine教授的機器人實驗室去年10月發表論文稱,他們能夠訓練模擬機器人模仿人類活動,只使用YouTube視頻的無標注數據。中山大學的這一工作未來或許能與伯克利的方法實現某種結合。
研究人員告訴新智元,接下來,“我們會針對于實際非受限場景中更加復雜多變的三維人體位姿預測問題,開展進一步研究;另外,進一步優化我們的方法,希望能在移動端實現實時精準的預測效果”。
-
3D
+關注
關注
9文章
2910瀏覽量
107790 -
神經網絡
+關注
關注
42文章
4779瀏覽量
101044
原文標題:中山大學新突破:自監督學習實現精準3D人體姿態估計
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論