“Generative AI(生成式AI)有什么社會價值?”
當騰訊研究院的研究員將上面這個問題輸入到ChatGPT中,得到如下回復:
“生成式AI是一種人工智能技術,它可以使用訓練數據來生成新的內容。這種技術可以用來解決各種問題,具有很高的社會價值。
例如,它可以用來生成文本、圖像、音頻和視頻,這些內容可以用來幫助人們了解世界,也可以用來提高工作效率。
此外,生成式AI還可以用來解決一些非常復雜的問題,比如提供新的醫療方案、幫助制定更有效的政策、或者甚至幫助人類更好地了解自己。
總的來說,生成式AI為人類提供了很多有價值的機會,有助于人類更好地理解世界,并創造出更多的價值。”
在以上ChatGPT的四段回答中,首先給出了定義(是什么和做什么),然后說明為什么要使用它,包括舉例和和強調重要性。最后,還進行了價值理念的歸納和升華。實話說,如果我們問一個對AI有所了解的人類,很大可能也回答不出這樣內容完備和邏輯條理的答案,或許這就是以ChatGPT等為代表的生成式AI之所以震撼業界的原因。
這一次,AIGC能掀起人工智能的產業革命嗎?
不過,人工智能自誕生的七八十年來,帶給人們的驚嘆多了去了。從早期研究積木世界到最早的智能機器人Shakey,再到上世紀八十年代深藍戰勝國際象棋冠軍卡斯帕羅夫,直至最近幾年的AlphaGo戰勝世界圍棋冠軍,人形機器人Atlas的后空翻和機器狗Spot的連滾翻……AI技術從來不缺讓人震撼的元素,但真正能夠產業化落地的卻少之又少。正因如此,谷歌這些年也收斂了敗家燒模式,開始講起Responsible AI的故事。
相較谷歌,OpenAI是一家小公司,不過背后卻有世界首富馬斯克和巨頭微軟的背書。從2016年6月宣布以制造通用機器人和使用自然語言的聊天機器人作為公司發展目標后,便開始了GPT語言模型的研究。
不過,真正讓OpenAI火出圈的是在2021年推出的DALL-E,加上后來Stable Diffusion的開源,文生圖率先掀起了AIGC的熱浪,伴隨而來的是大語言模型ChatGPT火爆全網。盡管業界原本的期待是進化版模型GPT-4,但GPT-3衍生而來的ChatGPT還是給到人們不少意外之喜。除了如前文所示的對答如流,在檢查程序代碼上也絲毫不含糊。
那么,以DALL-E、ChatGPT等為代表的生成式大模型真能掀起人工智能的產業革命嗎?如果是歷經了人工智能各流派興衰的產業界老人,可能多少會持有懷疑的態度。但對于后生代的巨頭科技企業和新時代的AI開發者來說,將會抱持更大的期待。
游戲設計師杰森?艾倫使用Midjourney模型 生成的《太空歌劇院》是首個獲獎的AI生成藝術
當然,愿望雖好,AIGC能否真正完成變革,還需要從技術工程化、產業生態化,以及機遇和挑戰等方面來進行多維度分析。騰訊研究院在近日發布了《AIGC 發展趨勢報告 2023》(以下簡稱《報告》),對AIGC的發展趨勢進行了深度解讀。
技術工程化:哪些Buff讓AIGC走向巔峰?
ChatGPT、DALL-E、Stable Diffusion們如此牛X,它們的背后有哪些技術?
《報告》中將其歸納為三點:
生成算法
預訓練模型
多模態
生成算法
生成算法并非新技術,2014年由伊恩?古德費洛最早提出生成對抗網絡(Generative Adversarial Network,GAN )是最早的生成式模型。之后,進一步出現了Transformer、Diffusion等深度學習生成算法,下表為生成式算法的演進時間軸。
圖片來源:《AIGC 發展趨勢報告 2023》
可以說,AIGC背后的三個最重要的算法模型就是GAN、Transformer和Diffusion。GAN的重要性體現在最早推出,衍生了許多流行架構和變種,還有大量科學家和研究人員在使用這一模型。Transformer則是因為應用領域的廣闊,包括NLP、CV 等領域的應用。后來出現的BERT、GPT-3、LaMDA等預訓練模型都是基于Transformer模型建立的。Diffusion則因為最優化模型性能的表現,包括靈活的模型架構和精確的對數似然計算,讓其成為最先進的圖像生成模型。
預訓練模型
在《報告》中,是這樣形容預訓練的重要性的:預訓練模型引發了 AIGC技術能力的質變。之所以稱為“質變”,正因此后基于大量數據訓練、擁有巨量參數成為AIGC實現多任務、多語言、多方式的核心驅動力。
預訓練開始的標志性事件是谷歌在2018年發布基于Transformer的機器學習方法BERT,自此AI進入大煉模型參數的預訓練時代。由谷歌掀起的這場預訓練旋風也拉起了一幫AI巨頭和獨角獸們的熱情參與,下表是主要的AIGC預訓練模型。
圖片來源:《AIGC 發展趨勢報告 2023》
多模態
除了生成算法和預訓練,AIGC 要達成工程化也少不了多模態。在這點上,CLIP的重要性就體現出來了。2021年,OpenAI團隊將跨模態深度學習模型 CLIP進行了開源,能夠將文字和圖像進行關聯。這樣一來,就從早期的單NLP、CV模型,擴展到語言文字、圖形圖像、音視頻等多模態、跨模態模型。
產業生態化:上、中、下游,看MaaS如何加持
生成算法、預訓練模型、多模態讓AIGC實現工程化,但一項技術能否真正撬動市場,還需要看它能否產業化。
在如何構建產業化上,《報告》給出的結論是:AIGC產業生態加速形成和發展,走向模型即服務(MaaS)的未來。
這些年來,SaaS(軟件即服務)、PaaS(平臺即服務)和IaaS(基礎設施即服務)我們聽了很多,當模型也變成一種服務之后,AIGC的產業未來會呈現出怎樣的形態?
圖片來源:《AIGC 發展趨勢報告 2023》
如上圖所示,從左到右依次是基礎層、中間層和應用層。
基礎層
首先,在產業的底層架構上,需要有以預訓練模型為基礎搭建的AIGC技術基礎設施。和其他所有技術一樣,基礎層是最考驗技術發展程度和可投入成本的地方,具有較高的進入門檻。據Alchemy API創始人Elliot Turner推測,訓練GPT-3的成本可能接近1200萬美元。所以,能夠進入到這一層的企業主要是頭部科技企業和科研機構。
除了背靠微軟不差錢的OpenAI,Stability.ai能夠成為基礎設施型公司也在于不斷有資金注入,就在三個月之前,這家公司又獲得了1.01億美元的融資。
基礎設施的獲利方式主要是通過受控的api調用進行收費,或者以開源為主,然后通過開發和銷售專業版和定制版實現商業獲利。
中間層
中間層主要是垂直化、場景化、個性化的模型和應用工具。基礎層的作用體現在提供通用模型訓練平臺,中間層的作用則是從通用調試和訓練中快速抽取生成場景化、定制化、個性化的小模型和應用工具,這一層的目的在于實現不同行業、垂直領域、功能場景的工業流水線式部署。
事實上,目前已經有不少團隊開始基于AIGC的基礎平臺進行二次開發,比如二次元畫風生成器Novel-AI,以及小冰公司通過AIGC生成動畫短片。相較通用的AIGC生成器,經過中間層的加工之后,產出的內容產品可以直接提供給終端用戶。
應用層
基礎層和中間層的應用主要面向B端,到了應用層就直接面向C端了。在這一層上,可以直接生成文字、圖片和音視頻。不過,相較于B端有更加功能強大的顯卡,C端個人用戶能否生成高質量的內容很考驗消費級顯卡的算力。英偉達、AMD、臺積電等芯片制造廠商對這個領域的蛋糕也都在虎視眈眈。
機遇與挑戰:引領AI 2.0變革,仍不能忽視知識產權、倫理等因素
除了技術工程化和產業生態化,衡量AIGC未來發展還需要把控兩大方面:機遇和挑戰,即當前和潛在的有利及不利因素。
從機遇來看,可以說是非常得多。在《報告》中,從消費端:AIGC牽引數字內容領域的全新變革;到產業端:合成數據牽引人工智能的未來;再到社會端:合成數據牽引人工智能的未來。可以說從人們的生產生活,到社會組織的方方面面都可以有AIGC的參與。
具體表現在:
消費端
AIGC正越來越多地參與到數字內容的創意性生成工作,以人機協同的方式釋放價值,成為未來互聯網的內容生產基礎設施;
AIGC帶來的內容生產方式變革開始引起內容消費模式的變化,未來應用生態和消費市場將走向多樣化;
在互聯網邁向“在場(3D)”的趨勢下,AIGC為3D互聯網可以帶來包括3D模型、場景、角色制作能效的提升,為創作者激發新的靈感;
Epic使用虛幻5引擎和程序化生成技術高效制作
《黑客帝國:覺醒》中的龐大城市(圖片來源:知乎用戶@王程)
未來隨著性能的進一步提升,對話式AIGC在搜索、知識傳播等領域有很大的應用空間。聊天機器人和數字人將成為新的、更具包容性的用戶交互界面,不斷拓展應用領域;
未來元宇宙的大型虛擬空間建設也離不開AIGC的參與,包括核心基礎設施技術、數字原生內容的開發等等,通過AIGC可以釋放大量包括開發者在內的人力和物力。
產業端
目前人工智能仍然處在發展的1.0階段(AI 1.0),從AI 1.0走向AI 2.0,數據是最大的掣肘。從真實數據向合成數據的轉化,可以推動人工智能邁向 2.0。而AIGC技術的持續創新,讓合成數據迎來新的發展契機。
社會端
《報告》將AIGC對社會價值的推動概括為:AIGC的社會價值體現為革新數字內容與藝術創造領域,并將輻射到其他領域和行業,孕育新的技術形態與價值模式,甚至會成為通往AGI(通用AI)的可能性路徑。
當然,有機遇就會有挑戰。未來,AIGC也將面臨包括知識產權、安全問題、倫理道德、環境保護等多個方面的挑戰。
文末彩蛋:“即使語言只是人類經驗的一小部分”
在吳恩達給DeeplearningAI的最新來信中,他表示到:
“一個人需要幾十輩子的時間,除了閱讀什么都不做,才能獲得GPT-3在訓練過程中接觸的單詞數量。但是,網絡聚合了為數十億人編寫或由數十億人編寫的文本,計算機可以隨時訪問其中的大部分內容。通過這些數據,LLMs獲取了關于人類體驗的豐富知識。盡管LLMs從未見過日出,但它已經閱讀了足夠多關于日出的文字,足以令人信服地描述日出的樣子。
因此,即使語言只是人類經驗的一小部分,LLMs也能夠接觸到關于世界的大量信息。這表明,建立智能有多種途徑,遵循生物進化或人類兒童成長的方式可能不是工程系統最有效的途徑。”
由此,他得出了當下機器學習算法獲得智能的最有效途徑——通過語言進化。而谷歌聯合創始人,現實版的托尼·史塔克曾說過:“終有一天,世界上所有的知識都可以直接與我們的大腦連接。”
從AIGC掀起的語言進化,到世界上所有的知識經驗與我們的大腦相連究竟還有多遠?你認為呢?
審核編輯 :李倩
-
算法
+關注
關注
23文章
4622瀏覽量
93077 -
人工智能
+關注
關注
1792文章
47445瀏覽量
239053 -
模型
+關注
關注
1文章
3268瀏覽量
48939 -
AIGC
+關注
關注
1文章
363瀏覽量
1564
原文標題:Stable Diffusion、ChatGPT爆火的背后!
文章出處:【微信號:AI科技大本營,微信公眾號:AI科技大本營】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論