一个人看的www视频在线,亚洲天堂高清,色宅男看片午夜大片免费看

機器學習發(fā)展至今，我們看到很多AI模型經(jīng)過大量數(shù)據(jù)能畫畫、能作曲。但是現(xiàn)在一個“神奇”的網(wǎng)站可以通過你的文字生成意想不到的圖像。事情還要從大半年前的一篇論文說起。

在今年一月份發(fā)表的一篇論文中，微軟研究院的實習生們訓練了一個機器學習算法，稱為AttnGAN。這是GAN的一種變體，可以根據(jù)寫下的文字生成圖像，圖像質(zhì)量是之前技術(shù)生成的圖像質(zhì)量的三倍。

這項技術(shù)可以生成任意圖像，從普通的田園風光到抽象的場景，每幅圖都能將文字描述詳細地表示出來。

論文簡介

最近很多文本生成圖像的方法都是基于生成對抗網(wǎng)絡（GAN）的，常用方法是將完整的文本描述編寫進整個句子向量中作為圖片生成的條件。雖然已經(jīng)能生成質(zhì)量不錯的圖像了，但是由于句子向量缺少在詞語層面上的微調(diào)信息，GAN無法生成更高質(zhì)量的圖像。這一問題在生成復雜場景時更嚴重。

為了解決這一問題，作者提出了注意力生成對抗網(wǎng)絡（AttnGAN），用注意力驅(qū)動、多階段的方法對文本生成圖像的問題進行微調(diào)。AttnGAN的整體結(jié)構(gòu)如圖：

模型有兩個創(chuàng)新元素。首先是注意力生成網(wǎng)絡，其中的注意力機制是通過觀察與該區(qū)域最相關(guān)的文字，生成器畫出圖像的不同部分。

更具體地說，除了將自然語言描述編碼到全局句子向量中，句中的每個單詞同樣有對應的向量。在第一階段，生成網(wǎng)絡利用全局句子向量生成一個低分辨率的圖像。接著，它會通過注意力層用每個區(qū)域的圖片向量查詢詞向量，從而形成一個詞-語境向量。之后，它會將區(qū)域圖像向量和對應的詞-語境向量相結(jié)合，形成一個多模態(tài)的語境向量。這就能夠在各個階段生成細節(jié)更豐富的高分辨率圖像。

該結(jié)構(gòu)中的另一個重要組成部分是深度注意力多模態(tài)相似模型（DAMSM）。由于有注意力機制，DAMSM可以計算生成圖像和句子之間的相似性。所以，DAMSM對訓練生成器提供了額外的調(diào)整損失函數(shù)。

模型試驗

與此前的方法相同，這篇論文提出的方法也在CUB和COCO兩個數(shù)據(jù)集上測試。最終訓練的結(jié)果如下：

每個場景的第一張圖片都是AttnGAN的第一階段（G0），僅僅描繪出了場景的原始輪廓，圖像分辨率很低。基于詞向量，接下來的兩個階段（G1和G2）學習糾正前面的結(jié)果。

在CUB數(shù)據(jù)集上的生成結(jié)果

經(jīng)過COCO數(shù)據(jù)集訓練的模型生成的結(jié)果，圖中的描述幾乎是不可能在現(xiàn)實中出現(xiàn)的

奇怪的方向

總的來說，AttnGAN的表現(xiàn)還是不錯的。但是國外一些研究者逐漸找到了新的玩法。研究者Cristóbal Valenzuela根據(jù)論文搭建了一個網(wǎng)站，用戶可以嘗試AttnGAN，但不同的是，訓練數(shù)據(jù)換成了更大的數(shù)據(jù)集。機器學習愛好者Janelle Shane在博客中寫道：“當把這個算法在另一個更大的、內(nèi)容更多樣的數(shù)據(jù)集上訓練后，生成的圖片難以符合文字描述（并且變得非常奇怪）。”例如下面這個例子，同樣的一句話，用原始模型生成的圖片是這樣的：

然而換了訓練數(shù)據(jù)集后：

這是……什么？由于在更大的數(shù)據(jù)集上訓練過，所以當GAN要畫出我要求的內(nèi)容時，它要搜索的圖像就更多，問題也變得廣泛。不僅僅在小鳥的生成上有限制，在生成人像上也會出現(xiàn)bug，例如下圖：

這個表現(xiàn)得就很糟了，根本分不清哪里是人臉。其他類似的還有很多，完全就是超現(xiàn)實主義作品。

Janelle Shane表示：“這個demo非常有趣，它也體現(xiàn)了目前先進的圖像識別算法是如何理解圖像和文字的。它們?nèi)绾卫斫狻贰颉祟悺吭?D圖像中，算法看到的人指向前方和側(cè)面是完全不同的。”

對于這一結(jié)果，AttnGAN論文的作者Tao Xu也給予了回復。Xu目前是美國理海大學一名研究生，她認為這是對論文結(jié)果的重要改進：

“隨著深度學習的快速發(fā)展，計算機視覺系統(tǒng)非常強大。例如它們可以從醫(yī)學影像中診斷疾病、在自動駕駛系統(tǒng)中定位行人和汽車。但是，我們?nèi)匀徊荒苷J為這些系統(tǒng)完全理解了它們所看到的東西。因為，如果機器真的擁有了智慧，它們不會僅識別圖像，而是可以生成圖像。

我們的AttnGAN將注意力機制和生成對抗網(wǎng)絡結(jié)合了起來，大大提高了文本生成圖像的模型性能。由于注意力是人類特有的概念，我們的AttnGAN就能學習這種”智慧“，像人類一樣畫畫，即注意相關(guān)詞語以及相關(guān)圖像區(qū)域。

雖然AttnGAN比之前的文本到圖像的模型表現(xiàn)得更好，但是生成多種“現(xiàn)實畫風”的物體對整個領(lǐng)域還是待解決的問題。我們希望未來在這一方向進行更多研究。”

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器學習

機器學習

+關(guān)注

關(guān)注
66

文章
8467

瀏覽量
133636
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1217

瀏覽量
25098
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
291

瀏覽量
13513

原文標題：雖然很驚悚，但這個AI靈魂畫手真的很努力了

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于擴散模型的圖像生成過程

近年來，擴散模型在文本到圖像生成方面取得了巨大的成功，實現(xiàn)了更高圖像生成質(zhì)量，提高了推理性能，也可以

發(fā)表于 07-17 11:00 ?3123次閱讀

六月，帶你品味合心鎮(zhèn)的合心瓜，享受田園采摘生活

六月的綠園熱情似火，六月的合心瓜果飄香，在這喜人的季節(jié)里，迎來了又一次“瓜熟蒂落”。合心鎮(zhèn)地處上風上水，是綠園區(qū)農(nóng)業(yè)發(fā)展主戰(zhàn)場，是長春市現(xiàn)代都市農(nóng)業(yè)示范區(qū)。這里有美麗的田園風光、有淳樸的民風民俗，有

發(fā)表于 06-21 10:57

點陣式液晶任意圖片顯示的實現(xiàn)

點陣式液晶任意圖片顯示的實現(xiàn) 液晶顯示器(liquid crystal display,lcd )具有功耗低、體積小、質(zhì)量輕、超薄和可編程驅(qū)動等其他顯示無法比擬的優(yōu)點,不

發(fā)表于 12-14 14:29 ?1891次閱讀

MAX4455 任意圖形隨屏顯示視頻發(fā)生器

MAX4455 任意圖形隨屏顯示視頻發(fā)生器 MAX4455是一款8通道的任意圖形OSD視頻發(fā)生器，可以將任意灰度級位圖嵌入到

發(fā)表于 12-26 08:15 ?1135次閱讀

紅外場景仿真在導引頭圖像實時生成中的應用

描述了利用Vega Prime生成紅外場景的方法，針對該方法在成像制導仿真系統(tǒng)應用中出現(xiàn)的問題進行了討論。介紹了地形場景模型的建立方法;分析了制導仿真圖像

發(fā)表于 05-19 18:25 ?0次下載

基于形式概念分析的圖像場景語義標注模型

為生成有效表示圖像場景語義的視覺詞典，提高場景語義標注性能，提出一種基于形式概念分析（ FCA）的圖像場

發(fā)表于 01-12 15:49 ?1次下載

GAN在圖像生成應用綜述

GAN 可以將任意的分布作為輸入，這里的 Z 就是輸入，在實驗中我們多取Z～N(0,1)，也多取 [?1,1] 的均勻分布作為輸入。生成器 G 的參數(shù)為 θ，輸入 Z 在生成器下得到

發(fā)表于 02-13 13:59 ?5811次閱讀

基于生成式對抗網(wǎng)絡的端到端圖像去霧模型

圖像中霧的特征;其次，采用殘差學習思想直接從退化圖像中學習到清晣圖像的特征，實現(xiàn)端到端的去霧;最

發(fā)表于 04-12 15:03 ?20次下載

一種結(jié)合回復生成的對話意圖預測模型

，但是，在很多場景下回復可能并沒有生成。因此，文中提出了一種結(jié)合回復生成的對話意圖預測模型。在生成部分，使用Seq2Seq結(jié)構(gòu)，根據(jù)對話歷史

發(fā)表于 04-14 14:02 ?5次下載

一種基于改進的DCGAN生成SAR圖像的方法

的方法。為測試和驗證多個同類圖像識別軟件，并進行擇優(yōu)，需要自行設計不同于訓練用的圖像來對測軟件進行測試。此方法可以為擇優(yōu)測試提供一個公平的基準測試集。實驗分別使用原 DCGAN模型和改進的 DCGAN模型

發(fā)表于 04-23 11:01 ?21次下載

如何去解決文本到圖像生成的跨模態(tài)對比損失問題？

從文本到圖像的自動生成，如何訓練模型僅通過一段文本描述輸入就能生成具體的圖像，是一項非常具有挑戰(zhàn)

發(fā)表于 06-15 10:07 ?2861次閱讀

AIGC最新綜述：從GAN到ChatGPT的AI生成歷史

本調(diào)查全面回顧了生成模型的歷史、基本組件、AIGC 從單模態(tài)交互和多模態(tài)交互的最新進展。我們從單峰性的角度介紹了文本和圖像的生成任務和相關(guān)模

發(fā)表于 03-13 10:13 ?3009次閱讀

基于文本到圖像模型的可控文本到視頻生成

的文本到視頻模型需要大量高質(zhì)量的視頻和計算資源，這限制了相關(guān)社區(qū)進一步的研究和應用。為了減少過度的訓練要求，我們研究了一種新的高效形式：基于文本到圖像模型的可控文本到視頻

發(fā)表于 06-14 10:39 ?1108次閱讀

java抽象類可以有普通方法嗎

Java中的抽象類可以有普通方法，但它也可以有抽象方法。抽象類是一種中間狀態(tài)，介于

發(fā)表于 11-21 10:22 ?1765次閱讀

一鍵解鎖：將任意圖像設備秒變GigE Vision設備的終極秘訣

?物聯(lián)網(wǎng)發(fā)展正在走向輕便和低成本。友思特eBUS Edge軟件方案，可將任意圖像設備一鍵升級為GigE Vision設備，讓機器視覺便捷處理更進一步。

發(fā)表于 03-13 17:20 ?960次閱讀