據披露,阿里巴巴研發部門近期推出了一款名為 AtomoVideo 的高保真 I2V(即 Image to Video)框架,可將靜態圖像轉化成精美的視頻內容。其主要特點有:
1. 高保真度:生成視頻與輸入圖片在細節和風格上保持一致;
2. 運動連貫:視頻流暢無跳躍,保證時間上的連續性;
3. 視頻幀預測:通過精確的預測來支持長時延視頻序列生成;
4. 兼容性強:適配現有各式各樣的 T2I(Text-to-image)模型;
5. 高語義控制力:能夠針對客戶特殊需求,打造個性化的視頻內容。
AtomoVideo運用預設的 T2I 模型,在每個空間卷積層和注意力層后新增一維時空卷積和注意力模塊?,F有的 T2I 模型參數固定不變,它們只會訓練新增的時空層,而輸入的串聯圖像信息由 VAE 編碼解析,這代表的是低層次信息,有利于提高視頻對輸入圖像的還原度。此外,團隊還使用 Cross-Attention 的方法融入高級圖像語義,以加強圖像語義可控性。
目前,該項目僅發布了論文和演示視頻,尚未開放線上試用途徑。另外,阿里巴巴已開啟 GitHub 賬號,但現在只是作為官方網站的托管地,并不包含相關代碼分享。
-
圖像
+關注
關注
2文章
1085瀏覽量
40477 -
阿里巴巴
+關注
關注
7文章
1616瀏覽量
47230 -
模型
+關注
關注
1文章
3248瀏覽量
48860
發布評論請先 登錄
相關推薦
評論