關于這點,在一篇采訪OpenAI 總裁Greg Brockman 的報道中提到了:
“Q:ChatGPT是如何產生的?GPT模型當初發布時顯得有些違反常識,但卻在某種程度上掀起了最新的AI浪潮,這與你們當初構建這些技術時的預期是否一致?
A:ChatGPT、GPT-3、DALL·E 2這些模型看似一夜成名,但其實構建這些模型耗費了整整五年時間,飽含多年的心血。GPT模型的構建要從2017年發布的情感神經元論文(Neural Sentiment Neuron: A novel Neural Architecture for Aspect-based Sentiment Analysis)說起,這篇論文的思想很新穎,不過很多人可能已經忘了。
....“
于是好奇去查了這篇文章,很遺憾,并不是上面提到的這篇文章,而是官網Learning to Generate Reviews and Discovering Sentiment這篇文章。這篇文章的作者很激動、誠懇甚至有點卑微的表達了它的意外發現,那就是單純訓練LSTM 模型的去預測下一個單詞,模型中的某個神經元意外對應著情感狀態,用Greg Brockman的原話說就是:
“我們發現LSTM模型中的單個神經元有助于開發出SOTA情感分析分類器(sentiment analysis classifier),可以告知你文本情感(正面評價或負面評價),這一發現聽起來平平無奇,但我們非常清楚地知道,這是一個超越語法并轉向語義的時刻。”
關于為何會出現這種涌現行為,文章的作者提出了他的思路:
“情緒作為條件特征可能對語言建模具有很強的預測能力。(It is possible that sentiment as a conditioning feature has strong predictive capability for language modelling.)“
這個思路是典型的達爾文進化思維:
即模型本身有生成各種能力的潛力,當某項能力有利于模型完成任務(完不成的參數被調整,等駕馭被任務淘汰),這項能力就能自發進化出來。
神經網絡在訓練的時候,采用的隨機梯度下降算法,一定程度上等效于物種的基因突變,本質是有一定方向的隨機摸索,在強大的生存壓力下,錯誤的摸索被淘汰,久而久之,積累越來越多的正確摸索,某些高層的功能就這么涌現出來了。
這種思路是不同于還原論的,ChatGPT 的出現讓很多這個行業的老人困惑:“似乎原理上沒有任何創新,為何能力出現巨大提升呢?”“涌現這個詞本身就是個模棱兩可的詞,我并不知道具體的細節,那就是偽科學。”“ChatGPT 具備的推理能力不過是另一種歸納,永遠無法替代演繹”。
還原論的思想講究從底層到高層的逐漸構建,每行代碼都有清晰的含義,這樣寫出來的系統才叫系統,但進化論的思想完全不同,進化論需要構建一個萬能生成器,然后建立一個淘汰機制,對萬能生成器生成的各種可能進行篩選淘汰,這樣進化出來的系統,就能很好的完成任務,至于里面形成的微結構,那并不是重點,甚至都無法用簡單的語言描述,因為本身就是全局共同起作用的。
所謂上下文推理,不過就是給定前文,準確給出后文的能力,這其實就是語言模型預訓練時候就在做的事情,為了能做到這點,在訓練的過程中,各種有助于提高預測能力的高層能力,都會自然而然的進化出來,所謂的高層能力,不過是一種函數,而神經網絡本身可以擬合一切函數,同時隨機梯度下降,又讓神經網絡具備了參數自動填充的能力。當然,進化的過程中,神經網絡總會嘗試找到更好的解法,比如死記硬背,但這些解法往往跟我們預期的解法不一致,這時候任務的合理構建就很重要了,需要巧妙的設計,讓我們預期的解法是神經網絡進化的唯一解。
其實換個角度想,人為什么有推理能力?人的一切能力也是進化而來的,人的各種生存壓力,配合基因的隨機突變和大自然的定向篩選,導致推理等能力的出現,換句話說,當推理能力的出現有助于人這個群體生存的時候,這個能力就會出現,跟GPT 涌現的各種能力的原理一樣。
不要總拿著還原論思想去看待世界,幾百年前,就出現了進化論思想,因為進化論思想沒有寫進義務教育的教材,導致太多人沒有深刻理解這個工具。
審核編輯 :李倩
-
神經網絡
+關注
關注
42文章
4779瀏覽量
101052 -
模型
+關注
關注
1文章
3298瀏覽量
49078 -
ChatGPT
+關注
關注
29文章
1566瀏覽量
7956
原文標題:為什么ChatGPT模型大了就有上下文聯系能力?
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論