機器學習發(fā)展至今,我們看到很多AI模型經(jīng)過大量數(shù)據(jù)能畫畫、能作曲。但是現(xiàn)在一個“神奇”的網(wǎng)站可以通過你的文字生成意想不到的圖像。事情還要從大半年前的一篇論文說起。
在今年一月份發(fā)表的一篇論文中,微軟研究院的實習生們訓練了一個機器學習算法,稱為AttnGAN。這是GAN的一種變體,可以根據(jù)寫下的文字生成圖像,圖像質(zhì)量是之前技術(shù)生成的圖像質(zhì)量的三倍。
這項技術(shù)可以生成任意圖像,從普通的田園風光到抽象的場景,每幅圖都能將文字描述詳細地表示出來。
論文簡介
最近很多文本生成圖像的方法都是基于生成對抗網(wǎng)絡(GAN)的,常用方法是將完整的文本描述編寫進整個句子向量中作為圖片生成的條件。雖然已經(jīng)能生成質(zhì)量不錯的圖像了,但是由于句子向量缺少在詞語層面上的微調(diào)信息,GAN無法生成更高質(zhì)量的圖像。這一問題在生成復雜場景時更嚴重。
為了解決這一問題,作者提出了注意力生成對抗網(wǎng)絡(AttnGAN),用注意力驅(qū)動、多階段的方法對文本生成圖像的問題進行微調(diào)。AttnGAN的整體結(jié)構(gòu)如圖:
模型有兩個創(chuàng)新元素。首先是注意力生成網(wǎng)絡,其中的注意力機制是通過觀察與該區(qū)域最相關(guān)的文字,生成器畫出圖像的不同部分。
更具體地說,除了將自然語言描述編碼到全局句子向量中,句中的每個單詞同樣有對應的向量。在第一階段,生成網(wǎng)絡利用全局句子向量生成一個低分辨率的圖像。接著,它會通過注意力層用每個區(qū)域的圖片向量查詢詞向量,從而形成一個詞-語境向量。之后,它會將區(qū)域圖像向量和對應的詞-語境向量相結(jié)合,形成一個多模態(tài)的語境向量。這就能夠在各個階段生成細節(jié)更豐富的高分辨率圖像。
該結(jié)構(gòu)中的另一個重要組成部分是深度注意力多模態(tài)相似模型(DAMSM)。由于有注意力機制,DAMSM可以計算生成圖像和句子之間的相似性。所以,DAMSM對訓練生成器提供了額外的調(diào)整損失函數(shù)。
模型試驗
與此前的方法相同,這篇論文提出的方法也在CUB和COCO兩個數(shù)據(jù)集上測試。最終訓練的結(jié)果如下:
每個場景的第一張圖片都是AttnGAN的第一階段(G0),僅僅描繪出了場景的原始輪廓,圖像分辨率很低。基于詞向量,接下來的兩個階段(G1和G2)學習糾正前面的結(jié)果。
在CUB數(shù)據(jù)集上的生成結(jié)果
經(jīng)過COCO數(shù)據(jù)集訓練的模型生成的結(jié)果,圖中的描述幾乎是不可能在現(xiàn)實中出現(xiàn)的
奇怪的方向
總的來說,AttnGAN的表現(xiàn)還是不錯的。但是國外一些研究者逐漸找到了新的玩法。研究者Cristóbal Valenzuela根據(jù)論文搭建了一個網(wǎng)站,用戶可以嘗試AttnGAN,但不同的是,訓練數(shù)據(jù)換成了更大的數(shù)據(jù)集。機器學習愛好者Janelle Shane在博客中寫道:“當把這個算法在另一個更大的、內(nèi)容更多樣的數(shù)據(jù)集上訓練后,生成的圖片難以符合文字描述(并且變得非常奇怪)。”例如下面這個例子,同樣的一句話,用原始模型生成的圖片是這樣的:
然而換了訓練數(shù)據(jù)集后:
這是……什么?由于在更大的數(shù)據(jù)集上訓練過,所以當GAN要畫出我要求的內(nèi)容時,它要搜索的圖像就更多,問題也變得廣泛。不僅僅在小鳥的生成上有限制,在生成人像上也會出現(xiàn)bug,例如下圖:
這個表現(xiàn)得就很糟了,根本分不清哪里是人臉。其他類似的還有很多,完全就是超現(xiàn)實主義作品。
Janelle Shane表示:“這個demo非常有趣,它也體現(xiàn)了目前先進的圖像識別算法是如何理解圖像和文字的。它們?nèi)绾卫斫狻贰颉祟悺吭?D圖像中,算法看到的人指向前方和側(cè)面是完全不同的。”
對于這一結(jié)果,AttnGAN論文的作者Tao Xu也給予了回復。Xu目前是美國理海大學一名研究生,她認為這是對論文結(jié)果的重要改進:
“隨著深度學習的快速發(fā)展,計算機視覺系統(tǒng)非常強大。例如它們可以從醫(yī)學影像中診斷疾病、在自動駕駛系統(tǒng)中定位行人和汽車。但是,我們?nèi)匀徊荒苷J為這些系統(tǒng)完全理解了它們所看到的東西。因為,如果機器真的擁有了智慧,它們不會僅識別圖像,而是可以生成圖像。
我們的AttnGAN將注意力機制和生成對抗網(wǎng)絡結(jié)合了起來,大大提高了文本生成圖像的模型性能。由于注意力是人類特有的概念,我們的AttnGAN就能學習這種”智慧“,像人類一樣畫畫,即注意相關(guān)詞語以及相關(guān)圖像區(qū)域。
雖然AttnGAN比之前的文本到圖像的模型表現(xiàn)得更好,但是生成多種“現(xiàn)實畫風”的物體對整個領(lǐng)域還是待解決的問題。我們希望未來在這一方向進行更多研究。”
-
機器學習
+關(guān)注
關(guān)注
66文章
8467瀏覽量
133636 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1217瀏覽量
25098 -
自然語言
+關(guān)注
關(guān)注
1文章
291瀏覽量
13513
原文標題:雖然很驚悚,但這個AI靈魂畫手真的很努力了
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
六月,帶你品味合心鎮(zhèn)的合心瓜,享受田園采摘生活
點陣式液晶任意圖片顯示的實現(xiàn)

MAX4455 任意圖形隨屏顯示視頻發(fā)生器
紅外場景仿真在導引頭圖像實時生成中的應用

GAN在圖像生成應用綜述

基于生成式對抗網(wǎng)絡的端到端圖像去霧模型

一種結(jié)合回復生成的對話意圖預測模型

一種基于改進的DCGAN生成SAR圖像的方法

AIGC最新綜述:從GAN到ChatGPT的AI生成歷史
基于文本到圖像模型的可控文本到視頻生成

一鍵解鎖:將任意圖像設備秒變GigE Vision設備的終極秘訣

評論