视频在线观看免费网址,色偷偷狠狠色综合网,走绳调教

人體動作生成任務旨在生成逼真的人體動作序列，以滿足娛樂、虛擬現實、機器人技術等領域的需求。傳統的生成方法包括 3D 角色創建、關鍵幀動畫和動作捕捉等步驟，其存在諸多限制，如耗時較長，需要專業技術知識，涉及昂貴的系統和軟件，不同軟硬件系統之間可能存在兼容性問題等。隨著深度學習的發展，人們開始嘗試使用生成模型來實現人體動作序列的自動生成，例如通過輸入文本描述，要求模型生成與文本要求相匹配的動作序列。隨著擴散模型被引入這個領域，生成動作與給定文本的一致性不斷提高。

然而，生成動作的自然程度離使用需求仍有很大差距。為了進一步提升人體動作生成算法的能力，本文在 MotionDiffuse [1] 的基礎上提出了 ReMoDiffuse 算法（圖 1），通過利用檢索策略，找到高相關性的參考樣本，提供細粒度的參考特征，從而生成更高質量的動作序列。

論文鏈接：https://arxiv.org/pdf/2304.01116.pdf
GitHub：https://github.com/mingyuan-zhang/ReMoDiffuse
項目主頁：https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通過巧妙地將擴散模型和創新的檢索策略融合，ReMoDiffuse 為文本指導的人體動作生成注入了新的生命力。經過精心構思的模型結構，ReMoDiffuse 不僅能夠創造出豐富多樣、真實度高的動作序列，還能有效地滿足各種長度和多粒度的動作需求。實驗證明，ReMoDiffuse 在動作生成領域的多個關鍵指標上表現出色，顯著地超越了現有算法。

圖 1. ReMoDiffuse 概覽

方法介紹

ReMoDiffuse 主要由兩個階段組成：檢索和擴散。在檢索階段，ReMoDiffuse 使用混合檢索技術，基于用戶輸入文本以及預期動作序列長度，從外部的多模態數據庫中檢索出信息豐富的樣本，為動作生成提供強有力的指導。在擴散階段，ReMoDiffuse 利用檢索階段檢索到的信息，通過高效的模型結構，生成與用戶輸入語義一致的運動序列。

為了確保高效的檢索，ReMoDiffuse 為檢索階段精心設計了以下數據流（圖 2）：

共有三種數據參與檢索過程，分別是用戶輸入文本、預期動作序列長度，以及一個外部的、包含多個 < 文本，動作 > 對的多模態數據庫。在檢索最相關的樣本時，ReMoDiffuse 利用公式計算出每個數據庫中的樣本與用戶輸入的相似度。這里的第一項是利用預訓練的 CLIP [2] 模型的文本編碼器對用戶輸入文本和數據庫實體的文本計算余弦相似度，第二項計算預期動作序列長度和數據庫實體的動作序列長度之間的相對差異作為運動學相似度。計算相似度分數后，ReMoDiffuse 選擇相似度排名前 k 的樣本作為檢索到的樣本，并提取出文本特征，和動作特征。這兩者和從用戶輸入的文本中提取的特征一同作為輸入給擴散階段的信號，指導動作生成。

圖 2：ReMoDiffuse 的檢索階段

擴散過程（圖3.c）由正向過程和逆向過程兩個部分組成。在正向過程中，ReMoDiffuse 逐步將高斯噪聲添加到原始動作數據中，并最終將其轉化為隨機噪聲。逆向過程專注于除去噪聲并生成逼真的動作樣本。從一個隨機高斯噪聲開始，ReMoDiffuse 在逆向過程中的每一步都使用語義調制模塊（SMT）（圖3.a）來估測真實分布，并根據條件信號來逐步去除噪聲。這里 SMT 中的 SMA 模塊將會將所有的條件信息融入到生成的序列特征中，是本文提出的核心模塊。

圖 3：ReMoDiffuse 的擴散階段

對于 SMA 層（圖 3.b），我們使用了高效的注意力機制（Efficient Attention）[3] 來加速注意力模塊的計算，并創造了一個更強調全局信息的全局特征圖。該特征圖為動作序列提供了更綜合的語義線索，從而提升了模型的性能。SMA 層的核心目標是通過聚合條件信息來優化動作序列的生成。在這個框架下：

1.Q 向量具體地代表了我們期望基于條件信息生成的預期動作序列。

2.K 向量作為一種索引機制綜合考慮了多個要素，包括當前動作序列特征、用戶輸入的語義特征，以及從檢索樣本中獲取的特征和。其中，表示從檢索樣本中獲取的動作序列特征，表示從檢索樣本中獲取的文本描述特征。這種綜合性的構建方式保證了 K 向量在索引過程中的有效性。

3.V 向量提供了動作生成所需的實際特征。類似 K 向量，這里 V 向量也綜合考慮了檢索樣本、用戶輸入以及當前動作序列。考慮到檢索樣本的文本描述特征與生成的動作之間沒有直接關聯，因此在計算 V 向量時我們選擇不使用這一特征，以避免不必要的信息干擾。

結合 Efficient Attention 的全局注意力模板機制，SMA 層利用來自檢索樣本的輔助信息、用戶文本的語義信息以及待去噪序列的特征信息，建立起一系列綜合性的全局模板，使得所有條件信息能夠被待生成序列充分吸收。

實驗及結果

我們在兩個數據集 HumanML3D [4] 和 KIT-ML [5] 上評估了 ReMoDiffuse。在與文本的一致性與動作質量兩個角度上，實驗結果（表 1、2）展示了我們提出的 ReMoDiffuse 框架的強大性能和優勢。

表 1. 不同方法在 HumanML3D 測試集上的表現

表 2. 不同方法在 KIT-ML 測試集上的表現

以下是一些能定性展示 ReMoDiffuse 的強大性能的示例（圖 4）。與之前的方法相比，例如，在給定文本 “一個人在圓圈里跳躍” 時，只有 ReMoDiffuse 能夠準確捕捉到 “跳躍” 動作和 “圓圈” 路徑。這表明 ReMoDiffuse 能夠有效地捕捉文本細節，并將內容與給定的運動持續時間對齊。

圖 4. ReMoDiffuse 生成的動作序列與其他方法生成的動作序列的比較

我們對 Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相應動作序列進行了可視化展示，并以問卷形式收集測試參與者的意見。結果的分布情況如圖 5 所示。從結果中可以清晰地看出，在大多數情況下，參與測試者認為我們的方法 —— 即 ReMoDiffuse 所生成的動作序列在四個算法中最貼合所給的文本描述，也最自然流暢。

圖 5：用戶調研的結果分布

引用

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

[5] Matthias Plappert, Christian Mandery, and Tamim Asfour. The kit motion-language dataset. Big data, 4 (4):236–252, 2016.

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.

原文標題：ICCV 2023 | 重塑人體動作生成，融合擴散模型與檢索策略的新范式ReMoDiffuse來了

文章出處：【微信公眾號：智能感知與物聯網技術研究所】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

物聯網

物聯網

+關注

關注
2910

文章
44752

瀏覽量
374593

原文標題：ICCV 2023 | 重塑人體動作生成，融合擴散模型與檢索策略的新范式ReMoDiffuse來了

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯網技術研究所】歡迎添加關注！文章轉載請注明出處。

基于移動自回歸的時序擴散預測模型

回歸取得了比傳統基于噪聲的擴散模型更好的生成效果，并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。然而在時間序列預測領域，當前主流的擴散方法還是傳統的

發表于 01-03 14:05 ?123次閱讀

基于移動自回歸的時序<b class='flag-5'>擴散</b>預測<b class='flag-5'>模型</b>

【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

能力。書中提到的Robotic Transformer-1就是一個典型的例子。它通過將自然語言指令與圖像輸入進行編碼和融合，生成融合后的token序列，并利用Transformer預測動作

發表于 12-29 23:04

【「大模型啟示錄」閱讀體驗】營銷領域大模型的應用

效地制定針對不同客戶群體的營銷策略，提高營銷活動的針對性和有效性。大模型在內容生成方面也具有顯著優勢。它可以快速、高效地生成高質量的營銷文案、廣告語、海報、視頻等營銷素材。這種能力不

發表于 12-24 12:48

檢索增強型生成(RAG)系統詳解

流暢且類似人類的文本方面表現出色，但它們有時在事實準確性上存在困難。當準確性非常重要時，這可能是一個巨大的問題。那么，這個問題的解決方案是什么呢？答案是檢索增強型生成（RAG）系統。 RAG集成了像GPT這樣的模型的強大功能，

發表于 12-24 10:44 ?228次閱讀

浙大、微信提出精確反演采樣器新范式，徹底解決擴散模型反演問題

隨著擴散生成模型的發展，人工智能步入了屬于?AIGC?的新紀元。擴散生成模型可以對初始高斯噪聲進

發表于 11-27 09:21 ?199次閱讀

擴散模型的理論基礎

擴散模型的迅速崛起是過去幾年機器學習領域最大的發展之一。在這本簡單易懂的指南中，學習你需要知道的關于擴散模型的一切。

發表于 10-28 09:30 ?526次閱讀

Meta發布Imagine Yourself AI模型，重塑個性化圖像生成未來

Meta公司近日在人工智能領域邁出了重要一步，隆重推出了其創新之作——“Imagine Yourself”AI模型，這一突破性技術為個性化圖像生成領域帶來了前所未有的變革。在社交媒體與虛擬現實技術

發表于 08-26 10:59 ?535次閱讀

沖擊或者時機，大模型帶來了什么？

AI大模型正如一股不可阻擋的力量，重塑著產業面貌。

發表于 08-06 16:52 ?704次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

與匹配模型可能結合高效檢索技術來快速定位與問題相關的信息源。通過匹配算法和索引技術，模型可以從海量數據中篩選出最相關的文本片段作為候選答案。 3. 推理與生成在獲得候選答案后，

發表于 08-02 11:03

TaD+RAG-緩解大模型“幻覺”的組合新療法

TaD：任務感知解碼技術（Task-aware Decoding，簡稱TaD），京東聯合清華大學針對大語言模型幻覺問題提出的一項技術，成果收錄于IJCAI2024。 RAG：檢索增強生成技術

發表于 07-16 15:01 ?2096次閱讀

Runway發布Gen-3 Alpha視頻生成模型

專為電影和圖像內容創作者提供生成式AI工具的Runway公司近日宣布，其最新的Gen-3 Alpha視頻生成模型已經正式問世。這款模型在多方面均取得了顯著的進步，為創作者們帶

發表于 06-19 09:25 ?590次閱讀

【大語言模型：原理與工程實踐】大語言模型的應用

實際應用前需解決的挑戰。為提升大語言模型的性能，高級的提示詞技術可以促進大語言模型與環境進行動態交互，引導其生成和推理規劃。檢索增強生成

發表于 05-07 17:21

KOALA人工智能圖像生成模型問世

近日，韓國科學團隊宣布研發出名為 KOALA 的新型人工智能圖像生成模型，該模型在速度和質量上均實現了顯著突破。KOALA 能夠在短短 2 秒內生成高質量圖片，同時大幅降低了對硬件的需

發表于 03-05 10:46 ?804次閱讀

谷歌推出AI擴散模型Lumiere

近日，谷歌研究院重磅推出全新AI擴散模型Lumiere，這款模型基于谷歌自主研發的“Space-Time U-Net”基礎架構，旨在實現視頻生成的一次性完成，同時保證視頻的真實性和

發表于 02-04 13:49 ?1054次閱讀

谷歌推出能一次生成完整視頻的擴散模型

該公司指出，當前眾多文生視頻模型普遍存在無法生成長時、高品質及動作連貫的問題。這些模型往往采用“分段生成視頻”

發表于 01-29 11:14 ?552次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

ICCV 2023 | 重塑人體動作生成，融合擴散模型與檢索策略的新范式ReMoDiffuse來了

評論

基于移動自回歸的時序擴散預測模型

【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

【「大模型啟示錄」閱讀體驗】營銷領域大模型的應用

檢索增強型生成(RAG)系統詳解

浙大、微信提出精確反演采樣器新范式，徹底解決擴散模型反演問題

擴散模型的理論基礎

Meta發布Imagine Yourself AI模型，重塑個性化圖像生成未來

沖擊或者時機，大模型帶來了什么？

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

TaD+RAG-緩解大模型“幻覺”的組合新療法

Runway發布Gen-3 Alpha視頻生成模型

【大語言模型：原理與工程實踐】大語言模型的應用

KOALA人工智能圖像生成模型問世

谷歌推出AI擴散模型Lumiere

谷歌推出能一次生成完整視頻的擴散模型