亚洲高清视频一区,色综合天天五月色,再深点灬舒服灬太大了免费视频

不再需要任何 3D 或 4D 數據，來自 Meta 的研究者首次提出了可以從文本描述中生成三維動態場景的方法 MAV3D (Make-A-Video3D)。

僅輸入一行文本，就能生成 3D 動態場景？

沒錯，已經有研究者做到了。可以看出來，目前的生成效果還處于初級階段，只能生成一些簡單的對象。不過這種「一步到位」的方法仍然引起了大量研究者的關注：

在最近的一篇論文中，來自 Meta 的研究者首次提出了可以從文本描述中生成三維動態場景的方法 MAV3D (Make-A-Video3D)。

Text-To-4D Dynamic Scene Generation

論文鏈接：https://arxiv.org/abs/2301.11280

項目鏈接：https://make-a-video3d.github.io/

具體而言，該方法運用 4D 動態神經輻射場（NeRF），通過查詢基于文本到視頻（T2V）擴散的模型，優化場景外觀、密度和運動的一致性。任意機位或角度都可以觀看到提供的文本生成的動態視頻輸出，并可以合成到任何 3D 環境中。 MAV3D 不需要任何 3D 或 4D 數據，T2V 模型只對文本圖像對和未標記的視頻進行訓練。

讓我們看一下 MAV3D 從文本生成 4D 動態場景的效果：

此外，它也能從圖像直接到 4D，效果如下：

研究者通過全面的定量和定性實驗證明了該方法的有效性，先前建立的內部 baseline 也得到了改進。據悉，這是第一個根據文本描述生成 3D 動態場景的方法。方法

該研究的目標在于開發一項能從自然語言描述中生成動態 3D 場景表征的方法。這極具挑戰性，因為既沒有文本或 3D 對，也沒有用于訓練的動態 3D 場景數據。因此，研究者選擇依靠預訓練的文本到視頻（T2V）的擴散模型作為場景先驗，該模型已經學會了通過對大規模圖像、文本和視頻數據的訓練來建模場景的真實外觀和運動。

從更高層次來看，在給定一個文本 prompt p 的情況下，研究可以擬合一個 4D 表征，它模擬了在時空任意點上與 prompt 匹配的場景外觀。沒有配對訓練數據，研究無法直接監督的輸出；

然而，給定一系列的相機姿勢就可以從渲染出圖像序列并將它們堆疊成一個視頻 V。然后，將文本 prompt p 和視頻 V 傳遞給凍結和預訓練的 T2V 擴散模型，由該模型對視頻的真實性和 prompt alignment 進行評分，并使用 SDS（得分蒸餾采樣）來計算場景參數 θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的擴展，為場景模型添加了一個時間維度，并使用 T2V 模型而不是文本到圖像（T2I）模型進行監督。然而，要想實現高質量的文本到 4D 的生成還需要更多的創新：

第一，需要使用新的、允許靈活場景運動建模的 4D 表征；

第二，需要使用多級靜態到動態優化方案來提高視頻質量和提高模型收斂性，該方案利用幾個 motion regularizer 來生成真實的運動；

第三，需要使用超分辨率微調（SRFT）提高模型的分辨率。

具體說明見下圖：

實驗

在實驗中，研究者評估了 MAV3D 從文本描述生成動態場景的能力。首先，研究者評估了該方法在 Text-To-4D 任務上的有效性。據悉，MAV3D 是首個該任務的解決方案，因此研究開發了三種替代方法作為基線。其次，研究者評估了 T2V 和 Text-To-3D 子任務模型的簡化版本，并將其與文獻中現有的基線進行比較。第三，全面的消融研究證明了方法設計的合理性。第四，實驗描述了將動態 NeRF 轉換為動態網格的過程，最終將模型擴展到 Image-to-4D 任務。

指標

研究使用 CLIP R-Precision 來評估生成的視頻，它可以測量文本和生成場景之間的一致性。報告的指標是從呈現的幀中檢索輸入 prompt 的準確性。研究者使用 CLIP 的 ViT-B/32 變體，并在不同的視圖和時間步長中提取幀，并且還通過詢問人工評分人員在兩個生成的視頻中的偏好來使用四個定性指標，分別是：(i) 視頻質量；(ii) 忠實于文本 prompt；(iii) 活動量；(四) 運動的現實性。研究者評估了在文本 prompt 分割中使用的所有基線和消融。

圖 1 和圖 2 為示例。要想了解更詳細的可視化效果，請參見 make-a-video3d.github.io。

結果

表 1 顯示了與基線的比較（R - 精度和人類偏好）。人工測評以在特定環境下與該模型相比，贊成基線多數票的百分比形式呈現。

表 2 展示了消融實驗的結果：

實時渲染

使用傳統圖形引擎的虛擬現實和游戲等應用程序需要標準的格式，如紋理網格。HexPlane 模型可以輕易轉換為如下的動畫網格。首先，使用 marching cube 算法從每個時刻 t 生成的不透明度場中提取一個簡單網格，然后進行網格抽取（為了提高效率）并且去除小噪聲連接組件。XATLAS 算法用于將網格頂點映射到紋理圖集，紋理初始化使用以每個頂點為中心的小球體中平均的 HexPlane 顏色。最后，為了更好地匹配一些由 HexPlane 使用可微網格渲染的示例幀，紋理會被進一步優化。這將產生一個紋理網格集合，可以在任何現成的 3D 引擎中回放。

圖像到 4D

圖 6 和圖 10 展示了該方法能夠從給定的輸入圖像產生深度和運動，從而生成 4D 資產。

更多研究細節，可參考原論文。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

3D

3D

+關注

關注
9

文章
2875

瀏覽量
107481
Meta

Meta

+關注

關注
0

文章
270

瀏覽量
11378
三維動態管理

三維動態管理

+關注

關注
0

文章
2

瀏覽量
751

原文標題：Meta提出Make-A-Video3D：一行文本，生成3D動態場景！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

3D模型文件格式之OBJ詳解

文件由一行行文本組成，注釋行以符號“#”為開頭，空格和空行可以隨意加到文件中以增加文件的可讀性。有字的行都由一兩個標記字母也就是關鍵字(Keyword)開頭，關鍵字可以說明這一行是什么樣的數據。多行

發表于 04-27 17:02

3D軟件中如何應用文本特征？3D文本特征應用技巧

精準的標注。浩辰3D軟件的文本特征應用，能幫助設計工程師以順序建模設計方式，快速創建特征，實現精準化標注。下面，小編給大家介紹一下如何使用浩辰3D軟件的

發表于 04-22 17:28

VR全景看房3D場景的制作方法

技術構建的VR房地產展示VR全景看房3D場景可視化制作解決方案，創建3D虛擬現實世界體驗的展示，運用先進技術生成的一種模擬環境多信息化融合、

發表于 04-23 10:21 ?9957次閱讀

基于視覺注意力的全卷積網絡3D內容生成方法

　由于在某些特殊場景中獲取深度線索的難度較高，使得已有3D內容生成方法的應用受到限制。為此，以顯著圖代替深度圖進行2D-3D轉換，提出

發表于 05-13 16:13 ?11次下載

NVIDIA提出Magic3D：高分辨率文本到3D內容創建

Magic3D 還可以執行基于提示的 3D 網格編輯：給定低分辨率 3D 模型和基本提示，可以更改文本從而修改生成的模型內容。此外，作者還展

發表于 11-25 11:33 ?1128次閱讀

3D模型場景展示哪個平臺做的好？

體驗。 3D模型場景建設能夠對所需的模型進行材質替換、燈光、虛擬場景、動畫生成、3D互動展示等一

發表于 12-30 15:39 ?1061次閱讀

<b class='flag-5'>3D</b>模型<b class='flag-5'>場景</b>展示哪個平臺做的好？

清華朱軍團隊提出ProlificDreamer：直接文本生成高質量3D內容

將 Imagen 生成的照片（下圖靜態圖）和 ProlificDreamer（基于 Stable-Diffusion）生成的 3D（下圖動態圖）進行對比。有網友感慨：短短

發表于 05-29 10:02 ?915次閱讀

清華朱軍團隊<b class='flag-5'>提出</b>ProlificDreamer：直接<b class='flag-5'>文本生成</b>高質量<b class='flag-5'>3D</b>內容

3D人體生成模型HumanGaussian實現原理

和驅動等。為了自動化 3D 內容生成，此前的一些典型工作（比如 DreamFusion [1] ）提出了分數蒸餾采樣 (Score Distillation Sampling)，通過優

發表于 12-20 16:37 ?1596次閱讀

<b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b>模型HumanGaussian實現原理

Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動起來的新方法！

因此，本文研究者的目標是實現快速、逼真和通用的 3D 生成。為此，他們提出了 DMV3D。DMV3D 是

發表于 01-30 16:20 ?850次閱讀

Adobe Substance 3D整合AI功能：基于文本生成紋理、背景

Substance 3D Stager是以Adobe Dimension為基礎改造而成，使用者可直觀地進行3D場景構建，包括模型、材質和燈光等要素。借助其強大功能，能夠生成極具觀賞性的

發表于 03-20 10:28 ?719次閱讀

Stability AI推出Stable Video 3D模型，可制作多視角3D視頻

SV3D_u是Stable Video 3D的一個版本，僅需單幅圖片即可生成運動軌跡視頻，無須進行相機調整。擴充版本的SV

發表于 03-21 14:57 ?1017次閱讀

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，該模型以其獨特的功能吸引了眾多關注。此模型具備從單張圖像中生成多視圖3D視頻的能力，為視頻制作領域帶

發表于 03-22 10:30 ?832次閱讀

NVIDIA生成式AI研究實現在1秒內生成3D形狀

NVIDIA 研究人員使 LATTE3D （一款最新文本轉 3D 生成式 AI 模型）實現雙倍加速。

發表于 03-27 10:28 ?492次閱讀

歡創播報騰訊元寶首發3D生成應用

App。騰訊元寶APP發布時，就圍繞工作效率場景、日常生活等場景提供了豐富的應用，并有創建個人智能體等個性化體驗，“3D角色夢工廠”則將大模型生成技術和

發表于 07-18 11:39 ?752次閱讀

如何使用 Llama 3 進行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）進行文本生成，可以通過以下幾種方式實現，取決于你是否愿意在本地運行模型或者使用現成的API

發表于 10-27 14:21 ?337次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Meta提出Make-A-Video3D：一行文本，生成3D動態場景！

評論

3D模型文件格式之OBJ詳解

3D軟件中如何應用文本特征？3D文本特征應用技巧

VR全景看房3D場景的制作方法

基于視覺注意力的全卷積網絡3D內容生成方法

NVIDIA提出Magic3D：高分辨率文本到3D內容創建

3D模型場景展示哪個平臺做的好？

清華朱軍團隊提出ProlificDreamer：直接文本生成高質量3D內容

3D人體生成模型HumanGaussian實現原理

Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動起來的新方法！

Adobe Substance 3D整合AI功能：基于文本生成紋理、背景

Stability AI推出Stable Video 3D模型，可制作多視角3D視頻

Stability AI推出全新Stable Video 3D模型

NVIDIA生成式AI研究實現在1秒內生成3D形狀

歡創播報騰訊元寶首發3D生成應用

如何使用 Llama 3 進行文本生成