【導(dǎo)讀】在已有的圖像翻譯研究中,模型需要使用大量的多類別圖像數(shù)據(jù),在一定程度上限制了模型的具體應(yīng)用。本文提出了一種基于少樣本目標(biāo)類別圖像的圖像翻譯模型,該模型在翻譯準(zhǔn)確度、內(nèi)容保留程度、圖像真實度和分布匹配度四個指標(biāo)上都超越了現(xiàn)有模型的效果。
摘要
無監(jiān)督的圖像翻譯方法通過在不同的非結(jié)構(gòu)化圖像數(shù)據(jù)集上進(jìn)行學(xué)習(xí),將指定類別的圖像轉(zhuǎn)換為另一類別的圖像。現(xiàn)有方法雖然取得了一定進(jìn)展,但在模型訓(xùn)練期間需要大量的源類別和目標(biāo)類別的圖像,限制了這類方法的實際應(yīng)用。
本文通過將一個新的神經(jīng)網(wǎng)絡(luò)架構(gòu)和對抗學(xué)習(xí)相結(jié)合,提出了一種少樣本的無監(jiān)督圖像翻譯算法。該模型能夠使用少量樣本圖像,針對新出現(xiàn)的圖像類別進(jìn)行圖片生成。作者將該模型與幾種現(xiàn)有方法進(jìn)行了比較,結(jié)果表明,這種基于少樣本的無監(jiān)督圖像翻譯算法非常有效。該論文的代碼已開源,相關(guān)項目地址如下:
https://nvlabs.github.io/FUNIT
簡介
人類非常擅長通過學(xué)習(xí)、類比推理等方法,將現(xiàn)有的知識泛化推廣到一些未見過的問題上。例如,即使對于沒見過老虎的人來說,當(dāng)看到一只站立的老虎,他也能根據(jù)對其他動物的觀察經(jīng)驗,聯(lián)想到老虎躺著的樣子。近來無監(jiān)督的圖像翻譯研究在不同圖像類別間的翻譯中取得了長足的進(jìn)步,但現(xiàn)有方法依然很難依據(jù)先驗知識和少量新類別的樣本圖像,對圖像進(jìn)行泛化。
當(dāng)前的圖像翻譯方法需要大量各類別的圖像用于翻譯模型的訓(xùn)練。針對這些問題,本研究提出一種少樣本無監(jiān)督圖像翻譯框架(Few-shot UNsupervised Image-to-image Translation, FUNIT),旨在只利用少量的目標(biāo)類圖像,通過學(xué)習(xí)到的圖像翻譯模型,將源圖像類別圖像范圍為到目標(biāo)類別的圖像。
該模型的假設(shè)如下:人類基于少樣本的生成能力來源于過去的視覺知識,且在之前看過的不同種類的物體越多,該泛化生成能力越強(qiáng)。基于此,本研究使用了一個包含多種類別圖像的數(shù)據(jù)集訓(xùn)練FUNIT模型,用來模擬過去所學(xué)習(xí)的多類別視覺知識。模型的目標(biāo)為,只利用目標(biāo)類別的少量樣本圖像,實現(xiàn)從源類別到目標(biāo)類別的圖像翻譯任務(wù)。
研究假設(shè),通過在訓(xùn)練中學(xué)習(xí)從少量新類別圖像中提取該圖像類別的外觀模式,模型能夠?qū)W習(xí)一個通用的外觀模式提取器,并將該模式應(yīng)用于未見過的類別圖像實現(xiàn)圖像翻譯。本文的實驗數(shù)據(jù)證明,訓(xùn)練集類別數(shù)的增加對于少樣本圖像翻譯模型的性能提升是有幫助的。
本文模型結(jié)構(gòu)基于對抗生成網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)。作者將 GAN 和新的網(wǎng)絡(luò)架構(gòu)耦合,獲得了較好的實驗效果。通過在不同數(shù)據(jù)集上的實驗將模型與幾種基線方法進(jìn)行對比分析,作者對模型的效果進(jìn)行了驗證,發(fā)現(xiàn)在各種性能指標(biāo)上FUNIT框架的表現(xiàn)都更好。
方法
本文所提出的FUNIT框架旨在基于少量的目標(biāo)類別圖像,將源類別圖像映射為一些模型未學(xué)習(xí)過的目標(biāo)類別的圖像。具體來說,在模型訓(xùn)練階段,本文所使用的圖像來自一組圖像類別的數(shù)據(jù)集合(如各種動物類別的圖像集),稱之為源類別,用于訓(xùn)練多層級無監(jiān)督的圖像翻譯模型FUNIT。
這里,本文假設(shè)在不同類別間不存在處于同一姿態(tài)的動物的圖像。在測試時,本文使用少量取自類別的圖像樣本,稱之為目標(biāo)類別,這一類別在模型訓(xùn)練時未使用。模型利用這些少量的目標(biāo)類別圖像樣本,能夠?qū)崿F(xiàn)從源類別到目標(biāo)類別的圖像翻譯本文提出的模型主要包括兩部分:一個少樣本圖像翻譯器 G 和一個多任務(wù)對抗判別器 D 。
少樣本圖像翻譯器 G
少樣本圖像翻譯器 G 由一個內(nèi)容編碼器Ex,一個類編碼器Ey和一個解碼器Fx構(gòu)成。其中內(nèi)容編碼器由多個 2D 卷積層和多個殘差塊(residual blocks)組成,用于將輸入的內(nèi)容圖像x映射為內(nèi)容潛在編碼 zx ,其中 zx 是一個空間特征映射。類編碼器包含多個2D卷積層并對卷積結(jié)果取均值。
而解碼器是由多個采用自適應(yīng)實例正則化方法(AdaIN)的殘差塊和多個卷積層結(jié)構(gòu)組成。對于每個樣本,AdaIN方法對每個通道的樣本激活值進(jìn)行正則化,以獲得其零均值和單元方差,之后通過一個仿射變換來縮放激活值。
如下圖1所示,該仿射變換具有空間不變性,因此僅可以用于得到全局的外觀特征信息。內(nèi)容編碼器能夠提取到不隨類別改變的隱層表征信息,而類別編碼器學(xué)習(xí)特定類別的隱層表征。文本通過AdaIN層將類編碼饋送到解碼器,并使用類別圖像來控制所生成的圖像全局外觀,使用內(nèi)容圖像決定圖像的局部結(jié)構(gòu)。
圖1 訓(xùn)練:訓(xùn)練集數(shù)據(jù)由各種不同類別圖像構(gòu)成(源類別),用于訓(xùn)練一個圖像翻譯模型。部署:展示了所提出的模型基于少量目標(biāo)類別圖像進(jìn)行圖像翻譯的表現(xiàn)。FUNIT 中生成器的輸入由兩部分構(gòu)成:1)內(nèi)容圖像;2)目標(biāo)類別圖像集。旨在通過輸入與目標(biāo)類相似的圖像來實現(xiàn)少樣本圖像翻譯。
不同于現(xiàn)有的圖像翻譯研究中使用的條件圖像生成器,這里G同時采用一張內(nèi)容圖像x和K個目標(biāo)類別圖像作為輸入,并生成輸出圖像。假定內(nèi)容圖像屬于類別cx,而每個K類圖像屬于類別cy。另外,K是個很小的數(shù)字,且cx與cy屬于不同類別。如下圖2所示。
圖2 仿射變換表達(dá)式
G將一張輸入的內(nèi)容圖像映射到屬于類別cy的輸出圖像,二者在圖像結(jié)構(gòu)上有一定的相似度。以S和T分別代表源圖像和目標(biāo)圖像集,在訓(xùn)練期間從兩個集合中隨機(jī)抽取圖像供G學(xué)習(xí),在測試期間G從目標(biāo)集中抽取一些未見過的類別圖像,并將源圖像集數(shù)據(jù)類別映射到目標(biāo)類圖像上。
多任務(wù)對抗判別器 D
判別器D的訓(xùn)練是同時在幾種對抗二分類任務(wù)上進(jìn)行的,其用于判別輸入圖像是源類別的真實圖像還是生成的目標(biāo)類別圖像。由于這里存在S個源圖像類別,因此D將對應(yīng)生成S個輸出。當(dāng)更新D時,根據(jù)輸出的結(jié)果,相應(yīng)地懲罰D。當(dāng)更新G時,只有當(dāng)輸出結(jié)果為假時才選擇懲罰D。經(jīng)驗上來說,通過這種方法處理后的判別器D能夠在S多分類任務(wù)上表現(xiàn)得更好。
此外,F(xiàn)UNIT框架所采用的損失函數(shù)如圖3所示:由GAN模型損失、內(nèi)容圖像重構(gòu)損失和特征匹配損失構(gòu)成。
圖3 FUNIT 框架的損失函數(shù)表達(dá)式
GAN模型損失的計算如圖4:
圖4 GAN 模型的損失表達(dá)式
重構(gòu)損失的數(shù)學(xué)表達(dá)式如圖5:
圖5 重構(gòu)損失表達(dá)式
而圖像特征匹配損失旨在最小化目標(biāo)類圖像特征與翻譯輸出結(jié)果圖像之間特征匹配度,如圖6:
圖6 特征匹配損失表達(dá)式
實驗
實驗部分使用如下四種數(shù)據(jù)集:
動物面孔數(shù)據(jù)集:從ImageNet數(shù)據(jù)集中抽取149種卡通動物類別,共含117574張圖像。
鳥類數(shù)據(jù)集數(shù)據(jù)集:包含48527張攻擊555種北美鳥類圖像數(shù)據(jù)。
花卉數(shù)據(jù)集:102類共8189張包含花的圖像。
事務(wù)數(shù)據(jù)集:來自256種共31395張食物圖像數(shù)據(jù)。
基準(zhǔn)方法分別使用的是StarGAN-Fair-K、 StarGAN-Fair-K 、CycleGAN-Unfair-K、UNIT-Unfair-K和MUNIT-Unfair-K 五種,分別通過翻譯準(zhǔn)確率(translation accuracy)、內(nèi)容保留程度(content preservation)、圖像真實度(photorealism)和 分布匹配度(Distribution matching)四種指標(biāo)來評估各種方法的性能。
總體結(jié)果FUNIT與基準(zhǔn)方法在不同數(shù)據(jù)集的實驗結(jié)果如下圖7所示。
圖7各方法的性能對比
可以看到,F(xiàn)UNIT框架在少樣本無監(jiān)督圖像翻譯任務(wù)上所有的性能指標(biāo)都超過了所有基準(zhǔn)方法的表現(xiàn):在Animal Faces數(shù)據(jù)集的1-shot和5-shot設(shè)置上分別達(dá)到82.36和96.05的Top-5測試精度,在North American Birds數(shù)據(jù)集上分別達(dá)到60.19和75.75的Top-5測試精度。圖8對FUNIT-5模型在少樣本圖像翻譯任務(wù)上的結(jié)果進(jìn)行了可視化。
圖8 FUNIT-5模型的少樣本無監(jiān)督圖像翻譯結(jié)果的可視化展示。從上到下,分別采用是動物面孔、鳥類、花卉和食物數(shù)據(jù)集樣本。
可以看到FUNIT模型能夠成功地實現(xiàn)從源圖像到新類別圖像的翻譯。此外,在圖9還提供了一些可視化的對比結(jié)果。
圖9少樣本圖像翻譯性能的結(jié)果對比
用戶研究本文在Amazon Mechanical Turk (AMT)平臺上通過人類評估法來進(jìn)一步驗證了圖像翻譯結(jié)果的可信度和真實度,結(jié)果如圖10所示。
圖10用戶偏好得分結(jié)果
用戶偏好得分評估結(jié)果表明,相比于其他方法,F(xiàn)UNIT-5模型的翻譯結(jié)果與目標(biāo)類圖像的相似度更高,可靠性更強(qiáng)。
訓(xùn)練集源類別數(shù)量下圖11展示了在動物數(shù)據(jù)集上,當(dāng)類別數(shù)量發(fā)生變化時,F(xiàn)UNIT-5模型的性能表現(xiàn)變化。這里只展示了類別數(shù)從69到119以間隔10變化時模型的表現(xiàn)。
圖11少樣本圖像翻譯性能vs 動物面孔數(shù)據(jù)集目標(biāo)類別數(shù)
可以看到,F(xiàn)UNIT模型的翻譯性能與目標(biāo)類別數(shù)呈正相關(guān)關(guān)系,即類別數(shù)越多,翻譯性能越好。此外,研究中還進(jìn)行了參數(shù)分析(parameter analysis)、消融實驗(ablation study)、隱層插值(latent interpolation)、失敗樣本分析(failure cases)等評估,具體信息可以查閱原論文的說明。
總結(jié)
本文介紹了首個少樣本無監(jiān)督圖像翻譯框架FUNIT,該模型利用少量的目標(biāo)類別圖像,實現(xiàn)了從源類別圖像到目標(biāo)圖像的翻譯,并展示了該框架的性能與目標(biāo)類別數(shù)的關(guān)系。FUNIT由三部分構(gòu)成:1)內(nèi)容編碼器:用于學(xué)習(xí)類別不變編碼;2)類編碼器:用于學(xué)習(xí)特定類別編碼;以及3)解碼器。
總的來說,F(xiàn)UNIT框架能夠?qū)崿F(xiàn)非常出色的圖像翻譯,但當(dāng)目標(biāo)類別與源圖像有顯著差異時,也會存在一些失敗的情況。在失敗樣本中,F(xiàn)UNIT方法僅對源圖像的顏色進(jìn)行了變更,而改變圖像的其他外觀特征,這也是未來研究的方向。
-
編碼器
+關(guān)注
關(guān)注
45文章
3664瀏覽量
135051 -
圖像數(shù)據(jù)
+關(guān)注
關(guān)注
0文章
52瀏覽量
11295 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24792
原文標(biāo)題:四大指標(biāo)超現(xiàn)有模型!少樣本的無監(jiān)督圖像翻譯效果逆天| 技術(shù)頭條
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論