CVPR 2023:GLIGEN: Open-Set Grounded Text-to-Image Generation
1. 論文信息
論文題目:GLIGEN: Open-Set Grounded Text-to-Image Generation
作者:Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao,Chunyuan Li, Yong Jae Lee
論文鏈接:https://arxiv.org/abs/2301.07093
代碼地址:https://github.com/gligen/GLIGEN
2. 引言
首先介紹一下open-set Grounded Text2Img Generation,它是一個框架,它可以根據文本描述和定位指令生成圖像。定位指令提供有關圖像的附加信息,例如邊界框、深度圖、語義地圖等。所提出的框架可以在不同類型的定位指令上進行訓練,例如檢測數據、檢測+字幕數據和定位數據。該模型在COCO2014數據集上進行評估,同時在圖像質量和定位準確性方面均取得了最先進的性能。本文的一個限制是,雖然到目前為止的描述集中于使用文本作為實體e和邊界框作為l(本文的主要setting),但是提出的定位指導是以一般形式表示的。然而,提出的框架可以擴展到其他定位條件。
如何做到這些呢?近年來,圖像生成研究取得了巨大進展。過去幾年,GANs是最先進的技術,其latent space和conditional inputs已經得到了深入研究,以實現可控的修改和生成。文本條件自回歸和擴散模型已經展示出驚人的圖像質量和概念覆蓋,這是由于它們更穩定的學習目標和基于網絡圖像-文本對數據的大規模訓練所致。這些模型甚至引起了公眾的關注,因為它們具有實用的用例(例如藝術設計和創作)。盡管取得了令人興奮的進展,但現有的大規模文本到圖像生成模型不能以除文本之外的其他輸入模態為條件,因此缺乏精確定位概念、使用參考圖像或其他條件輸入來控制生成過程的能力。目前的輸入,即僅限自然語言,限制了信息表達的方式。例如,使用文本描述一個物體的精確位置是困難的,而邊界框/關鍵點可以很容易地實現這一點。雖然存在以其他輸入模態進行修復、布局到圖像生成等的條件擴散模型和GANs,但它們很少將這些輸入組合起來進行可控的文本到圖像生成。
此外,先前的生成模型(不論生成模型家族)通常是在每個任務特定的數據集上獨立訓練的。相比之下,在識別領域,長期以來的范例是以在大規模圖像數據或圖像-文本對上預訓練的基礎模型為起點構建識別模型。由于擴散模型已經在數十億個圖像-文本對上進行了訓練,自然而然的問題是:我們能否在現有預訓練的擴散模型基礎上構建新的條件輸入模態?通過這種方式,類似于識別文獻,由于預訓練模型已經具有豐富的概念知識,我們可能能夠在其他生成任務上實現更好的性能,同時獲得對現有文本到圖像生成模型的更多可控性。
基于上述目標,我們提出了一種方法,為預訓練的文本到圖像擴散模型提供新的基礎條件輸入。我們仍然保留文本標題作為輸入,但還啟用其他輸入模態,如邊界框用于定位概念、引用圖像用于定位、部分關鍵點定位等。關鍵挑戰是在學習注入新的定位信息的同時保留預訓練模型的原始豐富概念知識。為了防止知識遺忘,我們建議凍結原始模型權重,并添加新的可訓練門控Transformer層,以接收新的定位輸入(例如邊界框)。在訓練期間,我們逐漸使用門控機制將新的定位信息融合到預訓練模型中。這種設計可在生成過程中實現靈活性,以提高質量和可控性;例如,我們展示了在前半部分采用全模型(所有層)進行采樣步驟,而在后半部分僅使用原始層(不包括門控Transformer層)可以導致生成結果準確反映基礎條件,同時具有高品質圖像。
3. 方法
3.1 Grounding Instruction Input
定位指令輸入是提供有關圖像的信息的附加輸入,例如邊界框、深度圖、語義地圖等。該輸入表示為一系列定位tokens,其中每個tokens對應于特定類型的定位信息。定位指令輸入包括以下步驟:
從輸入序列中提取定位tokens。
將每個tokens映射到其對應的定位信息。
對于每個使用邊界框表示的定位文本實體,我們將位置信息表示為l = [αmin, βmin, αmax, βmax],其中包含其左上角和右下角坐標。對于文本實體e,我們使用相同的預訓練文本編碼器來獲取其文本特征ftext(e)(圖2中的淺綠色標記),然后將其與其邊界框信息融合以生成定位令tokens:
而keypoints相較于bounding box有什么特點呢?keypoints比bounding box的泛化能力要差,因為關鍵點表示物體的部分,在不同類別之間不能總是共享。另一方面,邊界框僅指定圖像中物體的粗略位置和大小,并可以跨所有對象類別共享。這意味著,雖然關鍵點比邊界框提供了更細粒度的控制,但它們的泛化能力較差。本文的作者還提到,他們測試了人類學習的關鍵點定位信息是否可以轉移到其他非人型類別,如貓或燈,用于關鍵點定位生成,但他們發現即使使用了計劃采樣,他們的模型在這些情況下也會遇到困難。
從Closed-set轉換成Open-set:相較于open set的方法,現有的這種close-set環境下的布局到圖像生成方法僅適用于封閉集設置,限制了模型推廣到新實體的能力,也缺乏語言指令的語義結構。提出的定位指令采用通用形式,可以擴展到其他定位條件,例如圖像提示、關鍵點和空間對齊條件。圖像提示可以用于描述更抽象和精細的概念,而關鍵點和空間對齊條件則提供了更細粒度的可控性。而如圖所示,采用了UNet的結構,其可以通過將條件映射輸入到第一個卷積層中來加速。
3.2 Continual Learning for Grounded Generation
基于連續學習的定位生成是一種方法,使生成模型能夠從新的定位信息中學習而不會忘記以前學習的信息?;谶B續學習的定位生成的步驟包括:
在大型圖像和captioning數據集上預訓練生成模型。
在包含額外定位信息的較小圖像和captioning數據集上fine-tuning模型。
使用回放緩沖區存儲之前學習的信息,并在學習新的定位信息時使用它來防止遺忘。
使用連續學習方法訓練模型,平衡學習新信息的重要性和保留以前學習的信息。
使用生成模型將文本描述與提取的定位信息相結合生成最終圖像。
為了加快推理過程中的節奏,本文還提出了一種新的迭代模式,Scheduled Samplin。Scheduled Samplin是GLIGEN模型中使用的一種技術,通過設置一個稱為beta的參數來安排推理時間的采樣,其中beta可以設置為1(使用額外的定位信息)或0(降低到原始預訓練擴散模型)。這允許模型在不同階段利用不同的知識。通過將tau設置為0.2,可以使用計劃采樣來改善圖像質量,并擴展模型以生成具有類似人形形狀的其他對象。
計劃采樣的主要好處是提高了視覺效果的質量,因為粗略的概念位置和輪廓在早期階段被確定,后續階段則是細節的精細化處理。它還可以讓我們將在一個領域(人類關鍵點)訓練的模型擴展到其他領域(猴子卡通人物),如圖1所示。
4. 實驗
這段突出顯示的文本呈現了表格1,該表格顯示了在COCO2014驗證集上圖像質量和布局對應性的評估結果。表格中的數字來自相應的論文,是在COCO數據集上進行微調的模型。GLIGEN是建立在之上的模型。COCO2014數據集是文本到圖像生成領域中使用的標準基準,用于在封閉集設置中評估模型的生成質量和定位準確性。評估不同類型的定位指令以查看它們對模型性能的影響。比較的指標就是Inception Score(IS)、Fréchet Inception Distance(FID)和Layout Distance Metric(LDM)這些常用的生成模型客觀性評價指標。IS衡量生成圖像的質量,FID衡量生成圖像與真實圖像的相似性,而LDM衡量生成的圖像與給定布局的對應性。然后比較了使用COCO2014數據集的不同論文的結果,例如StackGAN++、AttnGAN和DM-GAN。這些論文對上述指標得分的表現不同。是在COCO數據集上進行微調的模型,它的得分比原始的LDM模型更好。GLIGEN是建立在L.DM之上的模型,它的得分比表格中提到的其他模型都要好??梢姳疚奶岢龇椒ǖ挠行浴?/p>
結合實驗來看,本文提出的方法,在性能和泛化性上,都有特別出彩的點。
5. 討論
本文的貢獻在于提出了一種新的文本到圖像生成方法GLIGEN,它賦予了現有的文本到圖像擴散模型新的定位可控性。該模型使用邊界框輸入實現了開放世界的定位文本到圖像生成,即合成訓練中未觀察到的新的局部概念。該模型在布局到圖像任務的零樣本表現顯著優于之前的最新技術水平,展示了在大型預訓練生成模型的基礎上進行下游任務建模的強大能力。本文總結認為,GLIGEN是推進文本到圖像合成領域和擴展預訓練模型在各種應用中能力的有前途的方向。
本文的一個limitation是,所提出的GLIGEN模型需要大量的訓練數據才能實現良好的性能。另一個限制是,模型的性能高度依賴于提供的定位信息的質量。此外,模型生成具有細節的圖像的能力也受到限制。作者建議未來的工作重點應該放在改進模型處理復雜定位信息和生成更逼真、更詳細圖像的能力上。
6. 結論
GLIGEN是本文提出的一種方法,用于擴展預訓練的文本到圖像擴散模型的定位能力。該方法使用邊界框、關鍵點、參考圖像和空間對齊條件(例如邊緣圖、深度圖等)來從文本描述生成圖像。該模型使用多層感知機來提取定位信息,并將其與文本描述相結合生成最終圖像。基于連續學習的定位生成被用于允許模型從新的定位信息中學習而不會忘記以前學習的信息。作者展示了GLIGEN在開放世界泛化方面的有效性,并表明它可以輕松擴展到其他定位條件。本文總結認為,GLIGEN是推進文本到圖像合成領域和擴展預訓練模型在各種應用中能力的有前途的方向。
-
LDM
+關注
關注
0文章
6瀏覽量
10656 -
模型
+關注
關注
1文章
3268瀏覽量
48937 -
數據集
+關注
關注
4文章
1208瀏覽量
24742
原文標題:論文解讀 Open-Set Grounded Text-to-Image Generation
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論