編者按:近日,影視后期特效網(wǎng)站FXGuide在文章中介紹了一種用機(jī)器學(xué)習(xí)進(jìn)行3D實(shí)時(shí)渲染的新方法,在手機(jī)中安裝相關(guān)軟件后,用戶可以實(shí)現(xiàn)臉部即時(shí)卡通化,或是把自己的動(dòng)態(tài)表情轉(zhuǎn)移到別人的臉上。這項(xiàng)技術(shù)來自AI創(chuàng)企Pinscreen,但不久前,它的首席執(zhí)行官/聯(lián)合創(chuàng)始人卻陷入了一場頗為轟動(dòng)的學(xué)術(shù)丑聞……
SIGGRAPH是計(jì)算圖形學(xué)的年度頂級會(huì)議,發(fā)展至今,它已經(jīng)成為全球最負(fù)盛名的的CG展示、學(xué)術(shù)研討會(huì)——除了論文展示環(huán)節(jié),以電影、游戲?yàn)榇淼?a href="http://m.1cnz.cn/v/" target="_blank">工業(yè)界也會(huì)爭相展示最新技術(shù),比如今年與會(huì)的暴雪娛樂和皮克斯,可想而知,它的熱鬧程度完全不亞于任何大型博覽會(huì)。
今年的SIGGRAPH將在8月12日召開,為期5天。作為計(jì)算圖形學(xué)最重要的會(huì)議,隨著近年來AI熱度的不斷上升,和計(jì)算機(jī)視覺一樣,SIGGRAPH的機(jī)器學(xué)習(xí)論文占比也屢破新高,這片圖形學(xué)的圣域大有“淪陷”趨勢。
而Pinscreen將在Real Time Live活動(dòng)中展示的正是一項(xiàng)機(jī)器學(xué)習(xí)成果:paGAN。
學(xué)術(shù)造假丑聞
說到這家公司,就不得不提它的首席執(zhí)行官/聯(lián)合創(chuàng)始人——黎顥。這是個(gè)在南加州大學(xué)任教的華人教授,他是SIGGRAPH的常客,也曾被微軟學(xué)術(shù)搜索評為“過去5年計(jì)算機(jī)圖形學(xué)領(lǐng)域十大影響力學(xué)者”,在業(yè)內(nèi)有相當(dāng)?shù)?a target="_blank">知名度和威望。
黎顥
但二十幾天前,他的前雇員Iman Sadeghi博士卻向他發(fā)起指控。在遞交給法院的報(bào)告中,Iman Sadeghi列出了黎顥的幾大罪狀:1)用人工繪制圖像假冒AI作品,并在SIGGRAPH上展示“成果”;2)用技術(shù)“成果”欺騙投資人;3)惡意解雇并毆打Sadeghi博士。
這個(gè)消息立即在學(xué)界引起軒然大波,畢竟如此惡劣的學(xué)術(shù)不端行為還是很少見的。但隨著輿論持續(xù)發(fā)酵,一些關(guān)于Sadeghi博士的負(fù)面消息也出現(xiàn)了:1)入職后基本不工作,老是不見人影;2)試圖搶奪公司財(cái)產(chǎn),刪除重要數(shù)據(jù);3)毆打勸阻的女員工。
當(dāng)然,以上只是他們的一面之詞,最終結(jié)果還是要交給加州法院定奪。作為旁觀者,我們無需也無法作出判斷。綜觀此次Pinscreen的展示內(nèi)容預(yù)告,我們發(fā)現(xiàn)它和訴訟報(bào)告中提到的很不一樣,所以覺得有介紹的必要。至于這個(gè)成果是不是“造假”得來的,還有待時(shí)間檢驗(yàn)。
用paGAN實(shí)現(xiàn)3D實(shí)時(shí)渲染
在介紹技術(shù)前,我們先來看看paGAN的具體效果。
下圖的左側(cè)是FXGuide編輯Mike Seymour用iPhone拍攝的源視頻,右側(cè)是實(shí)時(shí)渲染CGI。可以發(fā)現(xiàn),Pinscreen的成果確實(shí)可以在同一源視頻上進(jìn)行數(shù)字化構(gòu)圖,為真實(shí)人臉生成3D數(shù)字掩模。除了混合邊緣上的小調(diào)整,整個(gè)過程已經(jīng)基本實(shí)現(xiàn)自動(dòng)化。
在渲染過程中,皺紋等細(xì)節(jié)的處理通常比較困難。如上圖所示,雖然軟件沒能準(zhǔn)確重現(xiàn)每一條皺紋及其深淺程度,但右圖中的皺紋還是非常連貫,沒有出現(xiàn)參差錯(cuò)落的情況。根據(jù)Pinscreen的說法,這些都是自動(dòng)生成的。
上圖是Sadeghi博士在訴訟報(bào)告中展示的學(xué)術(shù)造假示例。據(jù)網(wǎng)友實(shí)驗(yàn),Pinscreen當(dāng)前版本的APP在處理肩部以下頭發(fā)時(shí)效果很差,對比Haley Dunphy那一頭金發(fā)(這是2017年提交給SIGGRAPH的成果),因此很多人認(rèn)為他提出的“頭發(fā)為人工制作”的說法是可信的。
但去年這個(gè)效果似乎和Mike Seymour的最新實(shí)驗(yàn)有很大差距,具體我們可以等新版軟件發(fā)布再去驗(yàn)證。
1. 用單張jpeg構(gòu)建面部
如果要生成卡通化的3D人臉,首先我們要構(gòu)建3D模型。Pinscreen現(xiàn)在使用的技術(shù)是基于單張Jpeg圖像構(gòu)建3D臉部模型,具體方法是靠“猜”,也就是先制作合理的3D網(wǎng)格,然后對輸入圖像和3D形狀執(zhí)行形狀匹配和角度變換。
事實(shí)上,除了Pinscreen,其他公司也用機(jī)器學(xué)習(xí)實(shí)現(xiàn)了這一技術(shù),它們的商業(yè)模式也基于這種創(chuàng)新。但Pinscreen的優(yōu)勢是處理效果更好,目標(biāo)更長遠(yuǎn)——開發(fā)直接面向用戶的端到端解決方案。
2. 每秒1000幀的臉部跟蹤
獲得模型后,下一步就是追蹤人臉位置和細(xì)節(jié)狀態(tài),保證模型的實(shí)時(shí)更新。據(jù)介紹,目前Pinscreen開發(fā)的最強(qiáng)大的臉部追蹤器是VGPT(Veli Goodo Pace Tracka),這也是他們即將在SIGGRAPH上實(shí)時(shí)演示的重要內(nèi)容。
VGPY是一個(gè)基于深度學(xué)習(xí)的輕量級網(wǎng)絡(luò),本身只有5M。不同于傳統(tǒng)追蹤器,它既不追蹤特征,也不追蹤標(biāo)記,而是基于直接推斷。具體而言,人類的臉部大同小異,以往我們使用的方法是在上面標(biāo)記一些關(guān)鍵特征點(diǎn),然后在統(tǒng)計(jì)的基礎(chǔ)上利用特征點(diǎn)來定位對齊。但根據(jù)黎顥介紹,VGPY使用的是3D高精度頭部模型、微表情測量工具FACS等工具,速度比AAM算法快很多。
這個(gè)追蹤器的速度也十分驚人。如果是在顯卡為1080P的PC上,VGPY的幀數(shù)高達(dá)1000;如果是在手機(jī)上,它的速度也有60到90 fps。雖然是快速無標(biāo)記追蹤,但VGPY可以始終保持高性能和高穩(wěn)健性。當(dāng)追蹤對象經(jīng)過遮擋物時(shí),它會(huì)在短時(shí)間內(nèi)重新獲取面部并繼續(xù)工作。
3D人臉是左側(cè)圖像的,但臉部的動(dòng)態(tài)是黎顥的(6個(gè)月前的成果)
3. paGAN
paGAN的全稱是Photoreal Avatar Generative Adversarial Network,它充當(dāng)整個(gè)系統(tǒng)中的“渲染器”。
渲染通常是繪圖的最后一步。就目前的傳統(tǒng)方法來看,如果我們要對頭像或人進(jìn)行建模、添加紋理、調(diào)節(jié)明暗和圖像渲染,大量高質(zhì)量數(shù)據(jù)是必須的。這通常意味著準(zhǔn)備多幅圖像,測量各個(gè)角度,進(jìn)行高質(zhì)量掃描,等到一切都準(zhǔn)備好,我們才能在3D網(wǎng)格上添加各種紋理、凹凸貼圖,鏡面反射貼圖等。除了著色器,我們還需要一個(gè)高質(zhì)量渲染算法。
雖然進(jìn)程安排存在先后,但上述內(nèi)容都息息相關(guān),而現(xiàn)實(shí)中承擔(dān)這些工作的通常是經(jīng)驗(yàn)豐富的工作人員和藝術(shù)家。這也意味著誰投入資源多,誰就做得好,這種由技術(shù)門檻帶來的不公平給電影、游戲工業(yè)帶去了不少困擾。
為了解決這個(gè)問題,Pinscreen團(tuán)隊(duì)跳過傳統(tǒng)方法,他們采取的第一種做法是不使用建模/紋理/照明和渲染管道,而是如下圖所示,直接將面部采樣點(diǎn)重新上色、復(fù)原、旋轉(zhuǎn)并放置在模擬的3D環(huán)境中,就像3D CGI頭一樣。
但這種方法失敗了,因?yàn)閺?fù)原的頭像無法正確定位,也不能完全動(dòng)畫化。由于實(shí)際上只是把照片投影在匹配的幾何體上,它只能在靜態(tài)時(shí)實(shí)現(xiàn)高保真。
經(jīng)歷了失敗后,Pinscreen把目光轉(zhuǎn)向最先進(jìn)的深度生成模型——GAN。這是一種非常特殊的深度學(xué)習(xí)網(wǎng)絡(luò),它已經(jīng)被證明能生成逼真的2D圖像。黎顥和他的團(tuán)隊(duì)希望能用GAN代替?zhèn)鹘y(tǒng)做法,實(shí)現(xiàn)正確角度“渲染”。
GAN是Ian Goofellow于2014年提出的一種神經(jīng)網(wǎng)絡(luò),它包含一個(gè)生成器G和一個(gè)判定器D。其中G從潛在空間隨機(jī)采樣,把采樣得到的樣本作為輸入,目標(biāo)是輸出類似真實(shí)數(shù)據(jù)的數(shù)據(jù);而D的輸入是G的輸出,它負(fù)責(zé)鑒定這個(gè)生成的偽數(shù)據(jù)和真實(shí)數(shù)據(jù)像不像,然后把分類結(jié)果饋送給G,讓它積累“作假”經(jīng)驗(yàn)。
當(dāng)用于面部時(shí),原始GAN的問題在于輸出的是個(gè)2D圖像,而且非常難控制。最后,Pinscreen團(tuán)隊(duì)做出了取舍,他們?yōu)閜aGAN制定的目標(biāo)是生成高度逼真的眼部和嘴部渲染。而根據(jù)最終結(jié)果,GAN確實(shí)在嘴部運(yùn)動(dòng)和舌頭運(yùn)動(dòng)上表現(xiàn)出色。
4. 重新定位
之前提到了,Pinscreen的3D臉部模型來自單張jepg,而它的表情則完全來自另一人,所以最后生成的表情動(dòng)畫不會(huì)和jepg有什么外觀上的出入,十分自然,十分逼真。
如上圖所示,第一行是建模的圖像,第一列是表情來源,中間生成的表情都很自然。這里需要注意一點(diǎn),Pinscreen的人臉追蹤器VGPY只檢測了圖中亞洲男子的微表情,它沒有對靜態(tài)圖像jepg做任何掃描,這意味著這些富有表現(xiàn)力的表情都是直接從表情源直接轉(zhuǎn)移到目標(biāo)人臉上的。
其他細(xì)節(jié)
除了上文提到的內(nèi)容,黎顥也用自己積累的經(jīng)驗(yàn)做了不少優(yōu)化工作,比如paGAN面不僅能夠從任何角度“渲染”,也能根據(jù)所需的環(huán)境明暗條件進(jìn)行渲染。
提起訴訟的Sadeghi博士是毛發(fā)渲染領(lǐng)域的專家,但如果本文演示圖片屬實(shí),那么在他離職后,Pinscreen確實(shí)在頭發(fā)上也進(jìn)步明顯。而根據(jù)黎顥的說法,他的團(tuán)隊(duì)這次使用的是一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)新系統(tǒng),可以始終根據(jù)訓(xùn)練數(shù)據(jù)生成合理的頭發(fā)模型。
看到這里,相信很多人已經(jīng)開始期待他們的新版APP。但大家請注意,以上圖像都是在PC上生成的,如果是手機(jī),效果會(huì)差那么一點(diǎn)兒。
這是軟件在手機(jī)上的效果,考慮到硬件差距,這個(gè)效果其實(shí)完全可以接受。
生成3D手機(jī)視頻聊天頭像
具體效果
而開發(fā)了這項(xiàng)技術(shù)后,Pinscreen首先瞄準(zhǔn)的目標(biāo)是實(shí)現(xiàn)3D視頻通訊。黎顥認(rèn)為,現(xiàn)如今3D游戲越來越多,而人們在其中扮演的也都是3D的角色,這說明3D是發(fā)展趨勢。未來,當(dāng)技術(shù)發(fā)展得足夠成熟后,也許打開手機(jī),我們面對不再是一個(gè)2D小人,而是一個(gè)立體化的真人形象。
-
自動(dòng)化
+關(guān)注
關(guān)注
29文章
5620瀏覽量
79533 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46079 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132938
原文標(biāo)題:深陷官司丑聞,這個(gè)華人創(chuàng)業(yè)者要在SIGGRAPH上展示什么?
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論