編輯貓、汽車甚至古董畫照片的愿望,由于一種稱為EditGAN的生成性對抗網絡(GAN)模型,從未像現在這樣容易實現。來自 NVIDIA,多倫多大學和 MIT 研究人員的工作建立了 DatasetGAN ,這是一種人工智能視覺模型,可以用最少16個人類注釋的圖像來訓練,并像其他需要100X更多圖像的方法一樣有效地執行。EditGAN 利用了前一個模型的功能,允許用戶使用簡單的命令(如繪圖)編輯或操作所需的圖像,而不會影響原始圖像質量。
什么是 EditGAN ?
根據 paper :“ EditGAN 是第一個 GAN 驅動的圖像編輯框架,它同時提供非常高精度的編輯,只需要很少的帶注釋的訓練數據(并且不依賴外部分類器),可以實時交互運行,允許對多個編輯進行簡單的合成,并可處理真正的嵌入式、生成的圖像,甚至是域外圖像。”
該模型學習特定數量的編輯向量,這些編輯向量可以交互地應用于圖像。本質上,它形成了對圖像及其內容的直觀理解,用戶可以利用這些信息進行特定的修改和編輯。該模型從相似的圖像中學習,并識別圖像中對象的不同組件和特定部分。用戶可以利用它對不同子部分進行有針對性的修改,或在特定區域內進行編輯。由于模型的精確性,圖像在用戶設置的參數之外不會失真。
“該框架允許我們學習任意數量的編輯向量,然后可以以交互速率直接應用于其他圖像。”研究人員在他們的研究中解釋道。“我們的實驗表明, EditGAN 可以以前所未有的細節和自由度處理圖像,同時保持完整的圖像質量。我們還可以輕松地組合多種編輯,并在 EditGAN 的訓練數據之外執行合理的編輯。我們在各種圖像類型上演示了 EditGAN ,并在數量上優于幾種預處理的圖像標準編輯基準任務的編輯方法。”
從增加微笑、改變別人看的方向、創造新的發型,或者給汽車一套更好的輪子,研究人員展示了模型的內在性,只需要很少的數據注釋。用戶可以根據所需的編輯繪制簡單的草圖或遮罩,并引導 AI 模型實現修改,例如更大的貓耳或更酷的汽車前燈。人工智能然后渲染圖像,同時保持非常高的精度和原始圖像的質量。之后,同樣的編輯可以實時應用于其他圖像。
圖 2 分配給圖像不同部分的像素示例。人工智能可以識別不同的區域,并可以根據人工輸入進行編輯。
這是怎么工作的?
Edigan 將圖像的每個像素指定給一個類別,例如輪胎、擋風玻璃或車架。這些像素在人工智能潛在空間內控制,并基于用戶的輸入,用戶可以輕松靈活地編輯這些類別。 Edigan 操縱 only 與所需更改相關的像素。人工智能根據訓練模型時使用的其他圖像知道每個像素代表什么,因此你無法嘗試將貓耳朵添加到汽車中以獲得準確的結果。但是,當在正確的模型中使用時, EditGAN 是一個非凡的工具,可以提供出色的圖像編輯效果。
圖 3 Edigan 可以訓練各種各樣的圖像,從動物到環境,形成對其內容的詳細理解。
EditGAN 的潛能
人工智能驅動的照片和圖像編輯有可能簡化攝影師和內容創作者的工作流程,并實現創新和數字藝術的新水平。 EditGAN 還使新手攝影師和編輯能夠制作高質量的內容,以及偶爾的病毒性模因。
“這個人工智能可能會改變我們編輯照片的方式,也許最終會改變視頻。它允許人們通過簡單的文本命令拍攝圖像并對其進行修改。如果你有一張汽車照片,你想讓車輪更大,只需鍵入“ make wheels bigger ”,然后噗 – 這是一張完全真實的照片,上面是同一輛車輪更大的汽車。”—— Fortune magazine
EditGAN 將來也可能用于其他重要應用。例如, EditGAN 的編輯功能可用于創建具有特定特征的大型圖像數據集。當針對不同的計算機視覺任務訓練下游機器學習模型時,這種特定的數據集可能很有用。
此外, EditGAN 框架可能會影響未來幾代 GAN 的發展。雖然當前版本的 EditGAN 側重于圖像編輯,但類似的方法也可能用于編輯 3D 形狀和對象,這在為游戲、電影或 metaverse 創建虛擬 3D 內容時非常有用。
關于作者
Nathan Horrocks 是 NVIDIA Research 的內容營銷經理。他重點強調了 NVIDIA 實驗室在世界各地進行的驚人研究。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5075瀏覽量
103569 -
人工智能
+關注
關注
1796文章
47642瀏覽量
239821 -
GaN
+關注
關注
19文章
1964瀏覽量
74016
發布評論請先 登錄
相關推薦
評論