色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于擴(kuò)散模型的視頻合成新模型,加特效杠杠的!

CVer ? 來源:機(jī)器之心 ? 2023-03-24 10:43 ? 次閱讀

從文本生成圖像,再到給視頻加特效,下一個(gè) AIGC 爆發(fā)點(diǎn)要出現(xiàn)了嗎?

相信很多人已經(jīng)領(lǐng)會(huì)過生成式 AI 技術(shù)的魅力,特別是在經(jīng)歷了 2022 年的 AIGC 爆發(fā)之后。以 Stable Diffusion 為代表的文本到圖像生成技術(shù)一度風(fēng)靡全球,無數(shù)用戶涌入,借助 AI 之筆表達(dá)自己的藝術(shù)想象……

相比于圖像編輯,視頻編輯是一個(gè)更具有挑戰(zhàn)性的議題,它需要合成新的動(dòng)作,而不僅僅是修改視覺外觀,此外還需要保持時(shí)間上的一致性。

在這條賽道上探索的公司也不少。前段時(shí)間,谷歌發(fā)布的 Dreamix 以將文本條件視頻擴(kuò)散模型(video diffusion model, VDM)應(yīng)用于視頻編輯。

近日,曾參與創(chuàng)建 Stable Diffusion 的 Runway 公司推出了一個(gè)新的人工智能模型「Gen-1」,該模型通過應(yīng)用文本 prompt 或參考圖像指定的任何風(fēng)格,可將現(xiàn)有視頻轉(zhuǎn)化為新視頻。

18131bda-c9bc-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2302.03011

項(xiàng)目主頁(yè):https://research.runwayml.com/gen1

2021 年,Runway 與慕尼黑大學(xué)的研究人員合作,建立了 Stable Diffusion 的第一個(gè)版本。隨后英國(guó)的一家初創(chuàng)公司 Stability AI 介入,資助了在更多數(shù)據(jù)上訓(xùn)練模型所需的計(jì)算費(fèi)用。2022 年,Stability AI 將 Stable Diffusion 納入主流,將其從一個(gè)研究項(xiàng)目轉(zhuǎn)變?yōu)橐粋€(gè)全球現(xiàn)象。

Runway 表示,希望 Gen-1 能像 Stable Diffusion 在圖像上所做的那樣為視頻服務(wù)。

「我們已經(jīng)看到圖像生成模型的大爆炸,」Runway 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Cristóbal Valenzuela 說。「我真的相信,2023 年將是視頻之年。」

具體來說,Gen-1 支持幾種編輯模式:

1、風(fēng)格化。將任何圖像或 prompt 的風(fēng)格轉(zhuǎn)移到視頻的每一幀。

2、故事板。將模型變成完全風(fēng)格化和動(dòng)畫的渲染。

3、遮罩。分離視頻中的主題并使用簡(jiǎn)單的文本 prompt 對(duì)其進(jìn)行修改。

4、渲染。通過應(yīng)用輸入圖像或 prompt,將無紋理渲染變成逼真的輸出。

5、定制化。通過自定義模型以獲得更高保真度的結(jié)果,釋放 Gen-1 的全部功能。

在該公司官方網(wǎng)站上發(fā)布的 demo 中,展示了 Gen-1 如何絲滑地更改視頻風(fēng)格,來看幾個(gè)示例。

比如將「街道上的人」變成「粘土木偶」,只需要一行 prompt:

182fd9b4-c9bc-11ed-bfe3-dac502259ad0.gif

或者將「堆放在桌上的書」變成「夜晚的城市景觀」:

196a5e94-c9bc-11ed-bfe3-dac502259ad0.gif

從「雪地上的奔跑」到「月球漫步」:

19fb35c2-c9bc-11ed-bfe3-dac502259ad0.gif

年輕女孩,竟然秒變古代先哲:

1acba46e-c9bc-11ed-bfe3-dac502259ad0.gif

論文細(xì)節(jié)

視覺特效和視頻編輯在當(dāng)代媒體領(lǐng)域無處不在。隨著以視頻為中心的平臺(tái)的普及,對(duì)更直觀、性能更強(qiáng)的視頻編輯工具的需求也在增加。然而,由于視頻數(shù)據(jù)的時(shí)間性,在這種格式下的編輯仍然是復(fù)雜和耗時(shí)的。最先進(jìn)的機(jī)器學(xué)習(xí)模型在改善編輯過程方面顯示出了巨大的前景,但很多方法不得不在時(shí)間一致性和空間細(xì)節(jié)之間取得平衡。

由于引入了在大規(guī)模數(shù)據(jù)集上訓(xùn)練的擴(kuò)散模型,用于圖像合成的生成方法最近在質(zhì)量和受歡迎程度上經(jīng)歷了一個(gè)快速增長(zhǎng)階段。一些文本條件模型,如 DALL-E 2 和 Stable Diffusion,使新手只需輸入一個(gè)文本 prompt 就能生成詳細(xì)的圖像。潛在擴(kuò)散模型提供了有效的方法,通過在感知壓縮的空間中進(jìn)行合成來生成圖像。

在本論文中,研究者提出了一個(gè)可控的結(jié)構(gòu)和內(nèi)容感知的視頻擴(kuò)散模型,該模型是在未加字幕的視頻和配對(duì)的文本 - 圖像數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上訓(xùn)練的。研究者選擇用單目深度估計(jì)來表征結(jié)構(gòu),用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的嵌入來表征內(nèi)容。

該方法在其生成過程中提供了幾種強(qiáng)大的控制模式:首先,與圖像合成模型類似,研究者訓(xùn)練模型使推斷出的視頻內(nèi)容,如其外觀或風(fēng)格,與用戶提供的圖像或文本 prompt 相匹配(圖 1)。其次,受擴(kuò)散過程的啟發(fā),研究者對(duì)結(jié)構(gòu)表征應(yīng)用了一個(gè)信息掩蔽過程,以便能夠選擇模型對(duì)給定結(jié)構(gòu)的支持程度。最后,研究者通過一個(gè)自定義的指導(dǎo)方法來調(diào)整推理過程,該方法受到無分類指導(dǎo)的啟發(fā),以實(shí)現(xiàn)對(duì)生成片段的時(shí)間一致性的控制。

1b5ce99c-c9bc-11ed-bfe3-dac502259ad0.png

總體來說,本研究的亮點(diǎn)如下:

通過在預(yù)訓(xùn)練圖像模型中引入時(shí)間層,并在圖像和視頻上進(jìn)行聯(lián)合訓(xùn)練,將潛在擴(kuò)散模型擴(kuò)展到了視頻生成領(lǐng)域;

提出了一個(gè)結(jié)構(gòu)和內(nèi)容感知的模型,在樣本圖像或文本的指導(dǎo)下修改視頻。編輯工作完全是在推理時(shí)間內(nèi)進(jìn)行的,不需要額外對(duì)每個(gè)視頻進(jìn)行訓(xùn)練或預(yù)處理;

展示了對(duì)時(shí)間、內(nèi)容和結(jié)構(gòu)一致性的完全控制。該研究首次表明,對(duì)圖像和視頻數(shù)據(jù)的聯(lián)合訓(xùn)練能夠讓推理時(shí)間控制時(shí)間的一致性。對(duì)于結(jié)構(gòu)的一致性,在表征中不同的細(xì)節(jié)水平上進(jìn)行訓(xùn)練,可以在推理過程中選擇所需的設(shè)置;

在一項(xiàng)用戶研究中,本文的方法比其他幾種方法更受歡迎;

通過對(duì)一小部分圖像進(jìn)行微調(diào),可以進(jìn)一步定制訓(xùn)練過的模型,以生成更準(zhǔn)確的特定主體的視頻。

方法

就研究目的而言,從內(nèi)容和結(jié)構(gòu)的角度來考慮一個(gè)視頻將是有幫助的。對(duì)于結(jié)構(gòu),此處指的是描述其幾何和動(dòng)態(tài)的特征,比如主體的形狀和位置,以及它們的時(shí)間變化。對(duì)于內(nèi)容,此處將其定義為描述視頻的外觀和語(yǔ)義的特征,比如物體的顏色和風(fēng)格以及場(chǎng)景的照明。Gen-1 模型的目標(biāo)是編輯視頻的內(nèi)容,同時(shí)保留其結(jié)構(gòu)。

為了實(shí)現(xiàn)這一目標(biāo),研究者學(xué)習(xí)了視頻 x 的生成模型 p (x|s, c),其條件是結(jié)構(gòu)表征(用 s 表示)和內(nèi)容表征(用 c 表示)。他們從輸入視頻推斷出形狀表征 s,并根據(jù)描述編輯的文本 prompt c 對(duì)其進(jìn)行修改。首先,描述了對(duì)生成模型的實(shí)現(xiàn),作為一個(gè)條件潛在的視頻擴(kuò)散模型,然后,描述了對(duì)形狀和內(nèi)容表征的選擇。最后,討論了模型的優(yōu)化過程。

模型結(jié)構(gòu)如圖 2 所示。

1bcf9992-c9bc-11ed-bfe3-dac502259ad0.png

實(shí)驗(yàn)

為了評(píng)估該方法,研究者采用了 DAVIS 的視頻和各種素材。為了自動(dòng)創(chuàng)建編輯 prompt,研究者首先運(yùn)行了一個(gè)字幕模型來獲得原始視頻內(nèi)容的描述,然后使用 GPT-3 來生成編輯 prompt。

定性研究

如圖 5 所示,結(jié)果證明,本文的方法在一些不同的輸入上表現(xiàn)良好。

1bfdf828-c9bc-11ed-bfe3-dac502259ad0.png

用戶研究

研究者還使用 Amazon Mechanical Turk(AMT)對(duì) 35 個(gè)有代表性的視頻編輯 prompt 的評(píng)估集進(jìn)行了用戶研究。對(duì)于每個(gè)樣本,均要求 5 個(gè)注解者在基線方法和本文方法之間對(duì)比對(duì)視頻編輯 prompt 的忠實(shí)度(「哪個(gè)視頻更好地代表了所提供的編輯過的字幕?」),然后以隨機(jī)順序呈現(xiàn),并使用多數(shù)票來決定最終結(jié)果。

結(jié)果如圖 7 所示:

1c9d58dc-c9bc-11ed-bfe3-dac502259ad0.png

定量評(píng)估

圖 6 展示了每個(gè)模型使用本文框架一致性和 prompt 一致性指標(biāo)的結(jié)果。本文模型在這兩方面的表現(xiàn)都傾向于超越基線模型(即,在圖的右上角位置較高)。研究者還注意到,在基線模型中增加強(qiáng)度參數(shù)會(huì)有輕微的 tradeoff:更大的強(qiáng)度縮放意味著更高的 prompt 一致性,代價(jià)是更低的框架一致性。同時(shí)他們還觀察到,增加結(jié)構(gòu)縮放會(huì)導(dǎo)致更高的 prompt 一致性,因?yàn)閮?nèi)容變得不再由輸入結(jié)構(gòu)決定。

定制化

圖 10 展示了一個(gè)具有不同數(shù)量的定制步驟和不同水平的結(jié)構(gòu)依附性 ts 的例子。研究者觀察到,定制化提高了對(duì)人物風(fēng)格和外觀的保真度,因此,盡管使用具有不同特征的人物的驅(qū)動(dòng)視頻,但結(jié)合較高的 ts 值,還是可以實(shí)現(xiàn)精確的動(dòng)畫效果。

1cc6e81e-c9bc-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3298

    瀏覽量

    49065
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    6902

原文標(biāo)題:Stable Diffusion公司新作Gen-1:基于擴(kuò)散模型的視頻合成新模型,加特效杠杠的!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于擴(kuò)散模型的圖像生成過程

    近年來,擴(kuò)散模型在文本到圖像生成方面取得了巨大的成功,實(shí)現(xiàn)了更高圖像生成質(zhì)量,提高了推理性能,也可以激發(fā)擴(kuò)展創(chuàng)作靈感。 不過僅憑文本來控制圖像的生成往往得不到想要的結(jié)果,比如具體的人物姿勢(shì)、面部表情
    的頭像 發(fā)表于 07-17 11:00 ?2821次閱讀
    基于<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的圖像生成過程

    如何在PyTorch中使用擴(kuò)散模型生成圖像

    除了頂尖的圖像質(zhì)量,擴(kuò)散模型還帶來了許多其他好處,包括不需要對(duì)抗性訓(xùn)練。對(duì)抗訓(xùn)練的困難是有據(jù)可查的。在訓(xùn)練效率的話題上,擴(kuò)散模型還具有可伸縮性和并行性的額外好處。
    發(fā)表于 11-22 15:51 ?532次閱讀
    如何在PyTorch中使用<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>生成圖像

    諧波噪聲激勵(lì)模型的語(yǔ)音合成算法

    傳統(tǒng)基于隱馬爾科夫模型( HMM)的語(yǔ)音合成算法使用高斯白噪聲和脈沖串來表示清濁音的激勵(lì)信號(hào),合成的語(yǔ)音較為嘈雜。為提高合成音質(zhì),基于諧波
    發(fā)表于 03-20 10:39 ?1次下載

    擴(kuò)散模型視頻領(lǐng)域表現(xiàn)如何?

    視頻生成領(lǐng)域,研究的一個(gè)重要里程碑是生成時(shí)間相干的高保真視頻。來自谷歌的研究者通過提出一個(gè)視頻生成擴(kuò)散模型來實(shí)現(xiàn)這一里程碑,顯示出非常有希
    的頭像 發(fā)表于 04-13 10:04 ?1721次閱讀

    如何改進(jìn)和加速擴(kuò)散模型采樣的方法1

      盡管擴(kuò)散模型實(shí)現(xiàn)了較高的樣本質(zhì)量和多樣性,但不幸的是,它們?cè)诓蓸铀俣确矫娲嬖诓蛔恪_@限制了擴(kuò)散模型在實(shí)際應(yīng)用中的廣泛采用,并導(dǎo)致了從這些模型
    的頭像 發(fā)表于 05-07 14:25 ?2403次閱讀
    如何改進(jìn)和加速<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>采樣的方法1

    如何改進(jìn)和加速擴(kuò)散模型采樣的方法2

      事實(shí)上,擴(kuò)散模型已經(jīng)在深層生成性學(xué)習(xí)方面取得了重大進(jìn)展。我們預(yù)計(jì),它們可能會(huì)在圖像和視頻處理、 3D 內(nèi)容生成和數(shù)字藝術(shù)以及語(yǔ)音和語(yǔ)言建模等領(lǐng)域得到實(shí)際應(yīng)用。它們還將用于藥物發(fā)現(xiàn)和材料設(shè)計(jì)等領(lǐng)域,以及其他各種重要應(yīng)用。我們認(rèn)
    的頭像 發(fā)表于 05-07 14:38 ?3301次閱讀
    如何改進(jìn)和加速<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>采樣的方法2

    蒸餾無分類器指導(dǎo)擴(kuò)散模型的方法

    去噪擴(kuò)散概率模型(DDPM)在圖像生成、音頻合成、分子生成和似然估計(jì)領(lǐng)域都已經(jīng)實(shí)現(xiàn)了 SOTA 性能。同時(shí)無分類器(classifier-free)指導(dǎo)進(jìn)一步提升了擴(kuò)散
    的頭像 發(fā)表于 10-13 10:35 ?1237次閱讀

    英偉達(dá)發(fā)布視頻AI大模型論文,自動(dòng)駕駛是其潛在應(yīng)用領(lǐng)域

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近日,英偉達(dá)與慕尼黑大學(xué)等院校的研究人員聯(lián)合發(fā)布了一篇有關(guān)視頻潛在擴(kuò)散模型(VideoLDM,Latent Diffusion Model)的論文,該模型
    的頭像 發(fā)表于 04-23 00:02 ?4795次閱讀
    英偉達(dá)發(fā)布<b class='flag-5'>視頻</b>AI大<b class='flag-5'>模型</b>論文,自動(dòng)駕駛是其潛在應(yīng)用領(lǐng)域

    基于文本到圖像模型的可控文本到視頻生成

    1. 論文信息 2. 引言 ? 大規(guī)模擴(kuò)散模型在文本到圖像合成方面取得了巨大的突破,并在創(chuàng)意應(yīng)用方面取得了成功。一些工作試圖在視頻領(lǐng)域復(fù)制這個(gè)成功,即在野外世界建模高維復(fù)雜
    的頭像 發(fā)表于 06-14 10:39 ?996次閱讀
    基于文本到圖像<b class='flag-5'>模型</b>的可控文本到<b class='flag-5'>視頻</b>生成

    如何加速生成2 PyTorch擴(kuò)散模型

    加速生成2 PyTorch擴(kuò)散模型
    的頭像 發(fā)表于 09-04 16:09 ?1132次閱讀
    如何加速生成2 PyTorch<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>

    基于DiAD擴(kuò)散模型的多類異常檢測(cè)工作

    現(xiàn)有的基于計(jì)算機(jī)視覺的工業(yè)異常檢測(cè)技術(shù)包括基于特征的、基于重構(gòu)的和基于合成的技術(shù)。最近,擴(kuò)散模型因其強(qiáng)大的生成能力而聞名,因此本文作者希望通過擴(kuò)散
    的頭像 發(fā)表于 01-08 14:55 ?1511次閱讀
    基于DiAD<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的多類異常檢測(cè)工作

    谷歌推出AI擴(kuò)散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴(kuò)散模型Lumiere,這款模型基于谷歌自主研發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu),旨在實(shí)現(xiàn)視頻生成的一次性完成,同時(shí)保證
    的頭像 發(fā)表于 02-04 13:49 ?1079次閱讀

    谷歌模型合成軟件有哪些

    谷歌模型合成軟件通常指的是谷歌提供的用于創(chuàng)建、修改和共享3D模型的軟件。目前,谷歌推出的模型合成軟件中最知名的是Google SketchU
    的頭像 發(fā)表于 02-29 18:20 ?1447次閱讀

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之一。在這本簡(jiǎn)單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?669次閱讀
    <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)

    基于移動(dòng)自回歸的時(shí)序擴(kuò)散預(yù)測(cè)模型

    在人工智能領(lǐng)域,目前有很多工作采用自回歸方法來模擬或是替代擴(kuò)散模型,其中視覺自回歸建模(Visual AutoRegressive modeling,簡(jiǎn)稱 VAR)就是其中的典型代表,該工作利用自
    的頭像 發(fā)表于 01-03 14:05 ?165次閱讀
    基于移動(dòng)自回歸的時(shí)序<b class='flag-5'>擴(kuò)散</b>預(yù)測(cè)<b class='flag-5'>模型</b>
    主站蜘蛛池模板: 免费看b站| 国产成人mv 在线播放 | 午夜伦4480yy妇女久久 | 欧美阿v在线天堂 | 偷偷鲁青春草原视频分类 | 亚洲乱码爆乳精品成人毛片 | jizz女学| 和美女啪啪啪动态图 | 久久久99精品成人片中文 | 一起洗澡的老师免费播放 | 高清国产免费观看视频在线 | 这里只有精品在线视频 | 日韩人妻无码精品-专区 | 中文字幕专区高清在线观看 | 国产-第1页-浮力影院 | 99re8在线视频精品 | 火影忍者高清无码黄漫 | 国偷自产AV一区二区三区健身房 | 亚洲精品卡2卡3卡4卡5卡区 | 天天摸夜添狠狠添高 | metart中国撒尿人体欣赏 | 国产精品高潮AV久久无码 | 夜月视频直播免费观看 | 牛牛自拍国产免费视频 | 欧洲美女高清一级毛片 | 久久这里只精品热在线99 | 日日啪无需播放器 | 免费国产久久拍久久爱 | 国产精品卡1卡2卡三卡四 | 一道本无吗d d在线播放 | 久久青草免费线观最新 | 天堂Av亚洲欧美日韩国产综合 | 99国内精精品久久久久久婷婷 | 菠萝蜜国际一区麻豆 | 亚洲精品在线观看视频 | 人妻 中文无码 中出 | 日日干夜夜艹 | 国产精品xxxav免费视频 | 国产在线视精品在亚洲 | 欧美一级久久久久久久大 | A级韩国乱理伦片在线观看 a级成人免费毛片完整版 |