隨著人工智能時代的到來,下一代媒體將由人工智能驅動,人工智能可能給數字內容領域帶來重塑。其中,可以實現換臉、人臉合成、語音合成、視頻生成甚至數字虛擬人等諸多應用形式的“深度合成”技術,作為人工智能發展到一定階段的產物,逐步從deepfake、deepnude等***的陰影中走了出來,迎來了商業化時代。AI虛擬主播、電商平臺上的“數字試穿”、電影后期制作、社交產品中的人臉融合、合成人臉和合成虛擬形象用于在線營銷、合成聲音用于失聲患者發聲,以及數字虛擬人等創新性的應用持續涌現,“深度合成”技術的社會福祉日益彰顯。但由于對技術的不了解,人們對“深度合成”技術還存在諸多偏見和誤解,例如認為“深度合成”就是“深度偽造”,認為“深度合成”會徹底沖擊社會信任,等等。為此,騰訊研究院、騰訊優圖實驗室共同完成報告《AI生成內容發展報告2020——“深度合成”(deep synthesis)商業化元年》,并基于該報告總結出了人們對該技術的十個誤解,希望通過澄清這些誤解,幫助人們更全面地了解深度合成技術的發展和應用情況。
誤解1:深度合成技術僅包括AI換臉一種形式。
實際上,現階段的深度合成技術,除了廣為人知的“AI換臉”以外,還包括人臉再現、人臉生成、語音合成等技術,并朝著全身合成、數字虛擬人等方向發展。AI換臉是最早進入公眾視野,也是目前應用較多的深度合成形式,可以借助人工智能技術對視頻中的人臉進行替換,在一些AI換臉應用中,用戶只需上傳一張面部照片,就可實現化身電影中的演員、游戲中的角色等效果。除此之外,“人臉再現”涉及對目標人物的臉部表情進行驅動;“人臉合成”涉及創建媲美真實人臉的全新人臉圖像;“語音合成”涉及創建特定的聲音模型,可以將文字轉化成接近真人語調和節奏的聲音。同時,深度合成正從局部合成轉向全身合成,從二維合成轉向3D合成;前者例如對目標人物的全身動作進行操控,后者則以數字虛擬人技術為代表。目前,國內外互聯網公司紛紛試水數字虛擬人技術,例如,2018年騰訊攜手Epic等企業啟動“Siren”虛擬人項目,2019年騰訊AI Lab正式發布首個電競虛擬人“T.E.G”(天鵝靜),整合3D人臉和人體重建、文本/語音/口型驅動和神經網絡渲染等技術,特別是利用生成對抗網絡完成人體動作的遷移。隨著5G時代的到來,這種捕捉和渲染將會更加靈敏生動,數字虛擬人在游戲、社交、影視、醫療等領域將大有可為。
誤解2:任何人都可以制作高質量、高仿真的深度合成內容。
深度合成內容的制作門檻已大為降低,但是高質量、高仿真的深度合成內容的制作還未普遍實現,仍需專業技能和專業工具。相比于PS等傳統的圖像處理軟件,得益于源代碼的開放和易用性工具的開發,深度合成技術的使用門檻已大為降低,普通用戶在智能手機、電腦等終端設備上,借助深度合成應用程序,即可輕易制作、獲取AI換臉、人臉合成、語音合成等娛樂性的深度合成內容。這類合成內容往往較為容易辨別,且存在來源標記,不至以假亂真。因此就目前而言,雖然像FakeApp、ZAO這樣的軟件已經開始讓更多的人接觸到深度合成技術,但高質量、高仿真的深度合成內容仍然難以創建,需要掌握專業技能和專業工具的專業人員的大量投入。
誤解3:深度合成技術已被大量濫用,用于在社交媒體平臺上制作、傳播虛假信息。
實際上,無論是在國內還是在國外,社交媒體平臺上涉及政治和政治人物的深度合成視頻都是很少見的,深度合成性質的虛假信息也很少。此前在國內外引發廣泛關注的奧巴馬、普京等政治人物的深度合成視頻,更多是警示性的和教育性的,意在表明深度合成技術可能出現此類濫用,而非為了傳播政治謠言和虛假信息。而且主流社交平臺已采取了針對深度合成內容的審核政策,因此深度合成內容并未在社交媒體平臺中失控,也并未給公眾話語權與社會輿論造成扭曲。但色情性的深度合成視頻,是深度合成技術濫用的重災區,應予以重視,報告顯示,2019年12月全網共有14678個深度合成視頻,其中96%屬于色情性的深度合成視頻,主要存在于色情網站。
誤解4:快速立法是應對深度合成技術濫用風險的唯一有效方式。
在新技術的治理與風險防范方面,法律規制一直是必不可少的手段,但由于很難識別深度合成內容的來源,立法可能起不到應有的效果,還可能阻礙技術的有益應用與正向發展。因此,立法和監管應當包容審慎,把握合理的限度,避免因矯枉過正而挫傷技術的發展應用從而影響技術的社會經濟價值的發揮。更進一步而言,可通過多方參與、風險評估、成本效益分析等機制,確保立法和監管的科學化、精細化、靈活化,并可考慮設立“安全港”規則或者監管例外來鼓勵AI應用。當然,立法并非唯一有效的方式,而且具有滯后性,難以跟上技術發展演變的步伐,尤其是對于仍在快速發展的深度合成技術而言;更為合理的路徑是,借助鑒別技術、溯源技術等技術措施,要求制作者對深度合成內容進行標記的源頭治理,行業公約、標準、最佳實踐、倫理指南等行業自律措施,以及公眾教育和數字素養的培養等更為敏捷靈活的治理措施,來實現多元治理。
誤解5:深度合成內容無法通過技術工具鑒別,只能通過生物特征測試(例如“眨眼測試”)。
實際上,眨眼測試等根據生物特征進行鑒別的方式,是非常低效、不可靠的,只能階段性地起作用,而且隨著深度合成技術的發展進化,生物特征測試越來越難以發揮作用。相反,深度合成內容的檢測識別,需要基于AI的鑒別技術,來實現對深度合成內容的自動化檢測。目前,隨著深度合成技術的進化,學界和業界已在大量投入和支持鑒別技術的開發,但目前的鑒別網絡多針對特定的深度合成方法,尚沒有通用的鑒別網絡,因此AI檢測工具需要隨時更新。在國內,騰訊優圖實驗室也在構建人臉合成檢測平臺——“FaceIn人臉防偽”,并在騰訊云上發布“換臉甄別ATDF”產品,支持對多種換臉方法進行檢測,達到了很高的準確率。
誤解6:深度合成就是“深度偽造”(deepfake)。
國內媒體一般根據“deepfake”這一合成詞,將其背后的技術翻譯為“深度偽造”,但“深度偽造”是以偏概全,不足以涵蓋所有的深度合成技術和相應的合成內容。追根溯源,deepfake最初只用于描述AI換臉的色情視頻,是一種特定的AI換臉技術,后來被媒體拿來泛指所有的深度合成技術,是以偏概全,既不專業,也不科學。因為“深度合成”的內涵更為廣泛,意指借助人工智能算法實現語音、音樂、圖像、人臉、視頻等內容的合成和自動生成,而以“深度偽造”為代表的AI換臉只是其中的一種應用形式而已。此外,“深度偽造”這一不甚科學的術語容易給相應的AI技術造成污名化影響,可能扼殺技術的潛在社會福利,不利于技術發展應用,因為deepfake背后的AI技術具有很大的正向應用價值,如新華社的AI合成主播、網絡上的虛擬歌手、社交媒體中的換臉應用等。因此,雖然deepfake的出現讓背后的AI技術獲得了廣泛的關注,但基于技術使用的意圖(即deepfake)去定義技術,強調技術的潛在欺騙性或可能帶來的負面影響,這一做法并不科學。基于以上考慮,“深度偽造”(deepfake)這一用語實際上并未得到技術社區的廣泛認可;相反,使用“深度合成”(deepsynthesis)來描述相關的AI技術和合成內容,更為科學合理。
誤解7:深度合成是人工智能技術作惡,只會給社會的帶來負面影響,沒有正向價值。
具備高度仿真能力的深度合成技術,雖然也存在被濫用的風險,但其巨大的正向應用價值將持續帶來社會福利,正被廣泛應用于影視、娛樂、教育、醫療、社交、電商、內容營銷、藝術創作、科研等諸多領域。隨著過去幾年的發展成熟,深度合成技術在2020年迎來商業化元年,大規模商用成為可能,未來幾年將持續涌現創新性的應用形式。例如,在影視作品的后期制作方面,深度合成技術已被用于“數字復活”演員或演員的聲音,或者實現多種語言的“數字配音”。亦開始大量涌現AI主播、虛擬歌手、AI換臉、數字虛擬人等社交與內容類應用。在電商領域,深度合成技術可以將用戶的臉部換到短的視頻片段中,從而讓用戶在購買前可以實現“數字試穿”。在廣告宣傳、內容營銷等領域,AI合成的人臉和虛擬形象可以替代網紅、模特等,既能帶來新鮮感,也免去了傳統上使用他人肖像的授權。在醫療領域,深度合成技術可以讓有失聲風險的患者重新獲得“自己的聲音”,也可以生成與真實影像無異的醫學圖像來訓練AI系統,解決數據不足、病人隱私保護等問題。在語音合成方面,騰訊云上線的語音合成以及實時語音合成技術,可以將任意文本轉化為語音,用于新聞、車載導航等個性化語音播報、有聲讀物制作、機器人發聲等。總之,深度合成并非關于“偽造”和“欺騙”的技術,而是極富創造力和突破性的技術,雖然它像其他任何技術一樣,也催生了一系列必須面對的難題,但這并不會磨滅這一技術給社會帶來的進步。
誤解8:互聯網行業對深度合成內容呈放任狀態。
實際上,互聯網行業內的主流網絡平臺已經著手采取自律措施應對深度合成技術的潛在濫用。谷歌、Facebook等美國主流科技公司已經采取了應對方案,積極開發甄別AI合成內容、對抗深度合成技術濫用的方法和工具,如谷歌開發的“Reality Defender”工具,可掃描用戶瀏覽的圖像、視頻或其他數字媒介,標記并報告可疑的偽造內容,檢測經竄改的人工合成內容;在此基礎上降低合成內容的權重,讓算法不再為用戶推薦被認定為深度合成并可能造成負面影響的內容。利用平臺優勢,這些科技公司已經在積極構建深度合成數據集,并開放給研究人員免費使用,以此來促進檢測技術的研究與開發。同時,各平臺之間還攜手開展深度合成檢測挑戰賽,為檢測技術的開發提供資金和深度合成數據集,以促進更多檢測識別技術的開發。僅2019年,谷歌、Facebook等相繼投資此類競賽,例如Facebook聯合微軟、美國AI聯盟(Partnershipon AI)、MIT等九家機構發起的深度合成檢測挑戰賽(DeepfakeDetection Challenge),已取得一定效果。在技術賽道之外,平臺也在培訓專門的合成內容審查人員,主要目的是增加審核的準確性,特別是在深度合成與戲仿諷刺的界限還難以把握的情況下,需要人工審核的參與,確保內容符合平臺的政策要求。在國內,騰訊信息安全團隊自研的GFN網絡算法鑒別AI換臉,及騰訊優圖實驗室研發的人臉合成檢測技術,對相關深度合成內容的檢測都達到了很高的準確率。
誤解9:深度合成已經被國外立法禁止。
實際上,被禁止的不是深度合成技術本身,而是利用此項技術從事色情視頻合成、虛假新聞、干擾選舉等非法行為。Reddit網站上deepfake論壇關閉、一鍵裸照應用deepnude下架等事件似乎表明國外對這項技術很不友好,但事實上,國外立法都承認深度合成技術的有益應用和正向價值,沒有“一刀切”禁止使用深度合成技術,而是根據使用意圖和使用效果進行劃分,主要對利用深度合成技術從事的違法行為進行打擊,而沒有對正常的深度合成技術應用施加過多的限制。例如,美國國會“Deepfakes責任法案”及美國德州、加州、弗吉尼亞州、紐約州的相關法案等只禁止政治干擾、色情報復、假冒身份等目的的深度合成,但沒有強制要求平臺部署檢測識別措施,而是加強源頭治理,要求制作者、上傳者對深度合成內容添加水印、文字、語音等標記。歐盟則對深度合成技術可能引致的假新聞以及個人信息保護等問題關注度頗高,在考慮用GDPR進行規制的合理性。回到我國,《網絡信息內容生態治理規定》第23條、《網絡音視頻信息服務管理規定》第10-13條、《民法典人格權編(草案)》第799條、《數據安全管理(征求意見稿)》第24條等規定給“深度合成”技術劃定了應用邊界,同時為行業探索有益應用場景留出了發展空間。
誤解10:深度合成會徹底沖擊媒體信任。
深度合成技術將如何影響大眾的行為和認知,目前還沒有足夠的研究支持,但是它提示我們,進入人工智能大眾化時期,對大眾信息分辨能力的培養也是治理的重要一環。以往PS等編輯技術也能進行一定程度的內容合成,但是并未沖擊社會的信任,相反社會能很好地適應并使用這一技術。深度合成媒體將比PS等技術更容易操作和使用,隨著開源工具的出現,深度合成內容的應用規模和使用范圍也將更大,內容的說服力更強。這為識別真實信息與合成內容帶來了挑戰,在一些報道中,深度合成技術被形容成社會真相的破壞者,認為深度合成技術的存在會導致對媒體信息天然的不信任,公眾可以用“deepfake”去懷疑一切他們想懷疑的事物。問題是,在這一技術出現之前,使用傳統的音視頻剪輯技術,甚至不使用技術手段,通過斷章取義等簡單方式就可以炮制虛假信息。媒體信任的塑造絕對不僅僅是封殺某一技術可以達到的,而需要從內容的生產、傳播、接收等多方面進行規范。深度合成技術的出現已經讓我們意識到了眼見不一定為“實”,這是加強公眾信息辨別能力的一個重要契機。
注釋:文章總結自騰訊研究院、騰訊優圖實驗室共同完成的報告《AI生成內容發展報告2020——“深度合成”(deep synthesis)商業化元年》。
-
圖像處理
+關注
關注
27文章
1299瀏覽量
56837 -
人工智能
+關注
關注
1793文章
47604瀏覽量
239520
原文標題:騰訊研究院 | 關于“深度合成”技術的十個誤解(附PDF下載)
文章出處:【微信號:industry4_0club,微信公眾號:工業4俱樂部】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論