谷歌發明的由2D圖像生成3D圖像的技術,利用3D估計神經網絡圖像信息的補全以及預測,融合了拍攝角度、光照等信息,讓生成的3D圖像看起來更加逼真,這種技術對于三維建模以及工業應用都具有極大的指導意義。
谷歌研究人員制作的一個AI工具,可以把涂鴉變成奇怪的怪物。這款工具名為Chimera Painter,使用機器學習來根據用戶的粗略草圖生成圖像。
Chimera Painter背后的團隊在一篇博客文章中解釋了他們的方法和動機,稱他們的想法是創造一種 “畫筆,它的行為不像工具,而更像助手”。Chimera Painter只是一個原型,但如果這樣的軟件變得普遍,它可以減少創造高質量藝術所需的時間。
這種圖像生成技術,其實在三維渲染方面有著非常廣泛的應用,其中最具有代表性的工作之一,就是由2D圖像生成3D圖像。我們知道,3D圖像相比于2D圖像多了深度信息這一個維度,但也就是這一個差別,導致了3D圖像相比于2D圖像所多出的信息不是一星半點。因此,倘若想要從2D圖像生成3D圖像,其難度之大可想而知。
為此,谷歌在18年10月18日申請了一項名為“通過渲染許多3D視圖來學習重構3D形狀”的發明專利(申請號:201880030823.5),申請人為谷歌有限責任公司。
根據該專利目前公開的資料,讓我們一起來看看這項從2D圖像到3D圖像的生成方法吧。
該技術中,主要使用了3D估計器神經網絡,如上圖,為使用3D估計器神經網絡來估計圖像中描繪的面部的3D形狀和紋理,并基于估計的3D形狀和紋理生成替身的系統示意圖。用戶通過上傳面部圖像105,系統100可以對照片進行處理后生成替身115,這里所說的替身也就是用戶的3D畫像。
在具體的過程中,照片首先由面部識別引擎110進行處理,從而生成用戶的面部圖像特征112,該特征在3D估計神經網絡中被處理,基于圖像特征估計照片中描繪的用戶面部的3D形狀和紋理,從而生成形狀紋理數據122。
最后,數據122被發送到3D渲染引擎130中,基于用戶獨特的面部形狀、紋理特征來生成用戶的3D畫像,并且為了做到更加真實,渲染引擎可以給出特定的視圖,視圖中融合了相機角度、光照以及視場的估計信息,可以讓生成的圖像質量更加逼真。
如上圖,為用于用戶3D渲染圖像生成的3D估計器神經網絡220的系統框圖,整個系統的結構還是相當復雜的,從圖中我們可以看到這種神經網絡是如何工作的。根據目前的技術來看,訓練3D估計器神經網絡通常有兩個困難:第一,由3D對象的圖像和那些3D對象的3D形狀和紋理組成的訓練對通常是有限的并且難以獲得;第二,訓練3D估計器神經網絡可能經常導致3D估計器神經網絡的網絡欺騙。
因此,該專利發明的整個網絡分為了監督訓練回路以及無監督訓練回路,通過二者相結合的方式,在完全訓練階段期間,僅利用無監督訓練回路,從而允許估計神經網絡輸出更快地收斂。
因為無監督訓練回路可以在預訓練階段和完全訓練階段兩者期間使用,所以從無監督訓練回路開始,在預訓練之后,完全訓練可以對大量迭代和大量樣本單獨利用無監督訓練回路,來改進3D估計神經網絡估計圖像中的對象的3D形狀和紋理的能力。
最后,是這種無監督訓練回路訓練的流程圖,系統首先需要獲取對象圖像的第一圖像特征,該特征就是上述所說用戶面部信息的原始數據,其次,將這種第一圖像特征提供給3D估計器神經網絡并獲取3D形狀和紋理。
根據這些形狀和紋理進行3D渲染,并從多個3D視圖中導出第二圖像特征,基于圖像特征的損失函數計算損失,以知道神經網絡進行反向傳播以得到更加良好的效果以及減少圖像生成的損失。
以上就是谷歌發明的利用2D圖像生成3D圖像的專利技術,從2D到3D圖像的轉換過程中,由于2D圖像缺少了很多信息,因此該技術利用3D估計神經網絡進行信息的補全以及預測,并融合了拍攝角度、光照等信息,讓生成的3D圖像看起來更加逼真,這種技術對于三維建模以及工業應用都具有極大的指導意義。
關于嘉德
深圳市嘉德知識產權服務有限公司由曾在華為等世界500強企業工作多年的知識產權專家、律師、專利代理人組成,熟悉中歐美知識產權法律理論和實務,在全球知識產權申請、布局、訴訟、許可談判、交易、運營、標準專利協同創造、專利池建設、展會知識產權、跨境電商知識產權、知識產權海關保護等方面擁有豐富的經驗。
責任編輯:tzh
-
3D
+關注
關注
9文章
2910瀏覽量
107797 -
谷歌
+關注
關注
27文章
6192瀏覽量
105814 -
神經網絡
+關注
關注
42文章
4779瀏覽量
101049
發布評論請先 登錄
相關推薦
評論