2024年6月14日,一場人工智能領域的頂級盛宴——“2024北京智源大會”,在享譽全球的中關村展示中心拉開了帷幕。這場會議引起了廣泛關注,各路英豪齊聚一堂,聚焦于大模型在人工智能領域的未來發展趨勢及相關重要議題進行深入探討與交流。其中,零一萬物首席執行官李開復先生,以及清華大學智能產業研究院院長張亞勤教授,共同擔任本次大會的主持人,他們的觀點和見解無疑為我們揭示了大模型在人工智能領域取得巨大成功背后的深層原因,同時也指出了大模型在發展過程中所面臨的諸多挑戰和難題。
李開復先生在會上表示,人工智能2.0是人類歷史上最為偉大的科技革命之一,也是一次前所未有的平臺革命。而大模型的崛起,正是得益于這個時代對于大規模數據處理和強大計算能力的需求。隨著計算能力和數據量的不斷增長,大模型的智慧也在不斷提升,然而,這只是剛剛開始,我們尚未觸碰到大模型智慧的極限。
然而,大模型在發展過程中也遇到了一系列挑戰。例如,如果我們過分強調通過增加計算能力來推動大模型的進步,那么這可能會導致只有擁有大量GPU資源的企業和國家才能在這場競爭中脫穎而出。然而,值得注意的是,盡管在某些特定場景下,中國的大模型已經接近甚至超越了美國的大模型,但這并不意味著我們可以忽視算法和工程創新的協同推進。
除此之外,大模型還面臨著記憶問題、窗口長度問題、幻覺問題等諸多挑戰。然而,我們應該看到,隨著全球眾多優秀人才紛紛投身于這個領域,這些問題正在逐漸得到解決。因此,我們對于大模型的未來充滿信心。
張亞勤教授則從大模型的“三個做得好”和“三個需要改進”兩個角度出發,對大模型的現狀進行了全面分析。他認為,大模型之所以能取得今天的成就,主要得益于規模定律的實現,以及對海量數據的有效利用和算力的大幅提升。同時,當前的擴散和轉換架構也能夠高效地利用算力和數據,從而形成了良性循環。至少在未來五年內,大模型仍然將是人工智能產業發展的主導方向。
構建大模型中,“ Token ”被視為底層基石的構成部分。無論是字詞句段、音聲圖像、視頻文件乃至自動化駕駛所依賴的激光雷達信號,亦或是生物學界探討的蛋白質及細胞層面,無一例外地均可轉化為一個個獨立且抽象的“ Token ”。這些“ Token ”之間的訓練、學習以及生成過程,無疑是整個大模型運作的核心所在,其運作模式與人體大腦內神經元的工作原理頗為相似,無論面臨何種任務挑戰,其基本運作機制始終保持不變。
如今的大模型,其通用性已不再局限于傳統的文本處理領域,而是已經拓展至多模態領域,甚至具備了生成諸如蛋白質這類復雜結構的能力。更為重要的是,大模型在物理世界(例如具身智能)以及生物世界(例如生物智能)中同樣具有廣闊的應用前景。
針對當前階段大模型所面臨的主要問題,他指出,首要問題便是效率相對較低。尤其是大模型在計算效率方面的不足,與人類大腦的高效運作形成了鮮明的反差。盡管人類大腦僅由 860 億個神經元組成,每個神經元又擁有數千個突觸連接,但其所需能耗僅為 20 瓦,重量更是輕盈到不足三公斤;然而,GPT4 這樣一個擁有萬億參數的模型,卻需消耗大量的算力和能源,與人類大腦的效率相比,差距高達 1000 倍之巨。除此之外,人類大腦能夠依據不同情境靈活調動各個區域的神經元,而大模型在每次接收一個問題時,都需要調用并激活幾乎所有的參數。因此,如何借鑒人類大腦的計算策略,以期在降低計算能耗、提升效率方面取得突破性的進展,無疑是一個值得深入研究和探索的方向。
其次,大模型目前尚不能真正理解物理世界,相關的推理能力、透明度以及幻覺等問題仍然有待進一步深入研究。大模型在生成式表述與對真實世界的描繪之間依然存在著難以調和的矛盾。因此,我們亟待尋找一種方式,將生成式的概率大模型與現有的“第一性原理”或真實模型、知識圖譜有機地融合起來。他預測,在未來五年之內,一種全新的架構有望應運而生,這種架構有望替代現行的 Transformer 和 Diffusion 模型。
最后,大模型在邊界問題上的表現也不盡如人意。目前,大模型無法明確感知自身的“無知”之處,這正是我們當前需要解決的問題,也是大模型所面臨的邊界效應。
-
gpu
+關注
關注
28文章
4768瀏覽量
129223 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239643 -
數據處理
+關注
關注
0文章
613瀏覽量
28604
發布評論請先 登錄
相關推薦
評論