導語
過去幾年,人工智能一直是熱點話題,而近幾個月伴隨著ChatGPT的橫空出世,關于人工智能的討論更是不勝枚舉。支撐ChatGPT的是一個名為GPT-3.5的大語言模型(LLMs),能夠生成流利的文本,并回答各種問題。而今年3月發布的最新版本GPT-4則更上一層樓,可執行超出訓練范圍的任務,展現出通用人工智能的跡象。
那么這些人工智能模型到底有多聰明?它們的崛起對人類又意味著什么? 《新科學雜志》就此采訪了計算機科學家梅蘭妮·米切爾,向其提出了十二個問題,以下為訪談紀要。
一、為何目前人們都將目光轉向人工智能?
ChatGPT等大語言模型對公眾開放,任何人都可使用這些模型,了解其能力。大語言模型進入飛速發展階段。過去五年,大語言模型逐步發展成熟,經過訓練后能夠生成媲美人類作家的文本。這種“類人智能”表現讓人們不禁產生錯覺,電影和科幻小說中所描述的人工智能終于出現了,人們對此感到好奇,同時也感到一些恐懼。
二、如今,生成式人工智能已發展到何種水平?我們該如何對其進行評估?
有關人工智能水平的爭論有很多,造成這種局面的原因在于智力、認知和意識等我們所關心的這些概念定義不明;其次,這些人工智能模型的運行機制與人類思維非常不同。最近,我們看到GPT-4成功通過了美國律師資格考試,如果一個人成功通過資格考試,我們一般會認為他擁有很高的一般智力,但誰能斷言這樣的測試同樣適用于評估人工智能呢?
三、這些大語言模型本質是什么?其智能水平如何?
讓我們從簡單的語言模型概念講起。選取一個短語,比如“綠色青蛙”,然后在大量的文本中搜索這一短語,看看哪些單詞通常跟在這個短語后面,如“跳躍”或“游泳”,但不太可能是“花椰菜”。每個單詞出現在這個短語之后的概率是多少?通過存儲大量可能出現的單詞序列概率,可以從文本提示開始查找下一個最可能的單詞是什么,這就是簡單語言模型的工作原理。
現在巨大的神經網絡模型執行這個計算單詞概率的任務,并用大量的文本訓練它。這些巨大的神經網絡模型被稱為“大語言模型”,可以學習短語之間非常復雜的統計關聯。問題在于,由于神經網絡模型及其操作的復雜性,很難深入了解并確切說出為預測下一個單詞其受到的訓練。
四、既然這些大語言模型實際所做的只是預測下一個單詞,為何說已經堪比人類智能了?
我們很難評估語言模型的智能水平,盡管如此,當前還是存在三種基本的評估方法,分別為:
一是與語言模型進行互動,通過交談、問問題和出謎語,測試語言模型的反應,進而做出判斷。這類似于圖靈測試,即機器是否具備人類的能力?而問題在于人類習慣將智能歸功于非智能因素;
二是做一些邏輯對比試驗,如給人工智能模型兩個句子組合。一個組合中,第一個句子與第二個句子存在邏輯聯系,而另一個組合的句子間沒有邏輯聯系。這些大語言模型在判斷句子邏輯關聯方面非常優秀。但事實往往證明,它們做得好并不是因為能像人類那樣理解句子,而是使用了統計關聯方法;
三是可以從神經網絡模型入手,試著了解機器解決問題的機制。人們正在研究這個問題,但這非常困難,因為這個系統太復雜了。所以目前為止還沒有萬無一失的成型的測試方法來評估這些語言模型的能力。
五、當前努力理解人工智能模型的能力是否會加深對智能和認知的認識?
人工智能的整個發展史都是如此。在20世紀70年代和80年代,很多人都說,如果人工智能在國際象棋領域要達到特級大師的水平,需要擁有一般人類的智力。然后我們發明出了“深藍”(Deep Blue)超級計算機,擊敗了國際象棋大師加里·卡斯帕羅夫(Garry Kasparov)。如今歷史再次重演,規則再一次被改變。但從更積極的角度來看,人工智能將繼續挑戰我們對智能的概念,或者我們對認知的定義。
我們知道智力有幾種不同的表現形式,例如,人類智能與章魚的智能非常不同,也與生成式人工智能的能力不同。我們中的一些人一直在用“多元智能”這個詞來強調智能不止一種。我們如何描述這些不同的智能?它們有什么共同特點嗎?它們完全不同嗎?這些都是我們需要解決的問題。
六、大語言模型有何驚艷之處?
近期常有人將大語言模型的表現稱之為“涌現現象”,即大語言模型不僅具有語言處理能力,而且貌似已具備類似人類的邏輯推理能力,可解答數學題、編寫計算機代碼、分析故事人物性格。然而,人們尚不清楚這一切能力背后的運行機制。大語言模型卓越的表現甚至讓人一度認為它們經受海量人類文本訓練后,可以感知當今世界。因此,當前困擾大眾的難題就是大語言模型可以像人類一樣進行邏輯推理嗎?還是只是通過復雜的統計關聯來運行?它為何不能和人類一樣進行推理?
七、當前對大語言模型背后的運行機制有何重要認識?
鑒于每月各大科技公司和研究院都會推出新的大語言模型,開發新的功能,因此現在去解釋其背后的運行機制還為時尚早。對于GPT-3,人們至少還能了解其背后的訓練數據。而到了GPT-4,就無法做到這一點。OpenAI給出的解釋是,GPT-4作為一款商業產品,為保持其競爭優勢,同時考慮到安全因素,無法對外公開其訓練數據。大語言模型的不透明導致無法研究其背后的運行機制。
八、當前人工智能技術是否已顯露通用人工智能的特征?或者需要另辟蹊徑來開發通用人工智能?
我們需要先回答:何為通用人工智能?對此眾說紛紜,莫衷一是。因此如果當前我們連研究目標都沒有搞清,談何研發通用人工智能。心理學界一直有人質疑人類是否具備一般智力。人類智力對人類進化歷程的作用十分特殊,并非我們所想的那樣具備一般性。基于此,我認為單憑大語言模型不斷迭代更新,無法研制出具有類似人類認知能力的人工智能。我們期盼人工智能不僅僅具有語文理解力,還應具備視覺理解力,具備在給定環境理解并作出正確決策的能力。
為實現這一點,我們將需要開發不同的架構。以GPT-4為例,該類語言模型不具備長時記憶,因此記不住過去的對話,從某種意義上講,它們并不關心自己過去講過什么。有學者指出,人類大部分智力都是以動機為導向,人類通過智力實現進化所設定的目標。如果一個系統沒有任何動機,或者說沒有自己的目標,將無法具備類似人類的智能。
九、有人認為人工智能將擁有知覺或有意識,你如何看?
數千年前,哲學家就指出,如何知道對方是否有意識?人類可以感知自身的意識,而無法感知他人的意識,對方也許是頭僵尸呢?同理,我并不清楚何為有意識的人工智能,而且關于這一問題的爭論永無定論,因此我不愿意去思考這一問題。
十、大語言模型將如何應用于日常生活?我們應該如何與其相處?
有些應用平平無奇,如幫助寫郵件或者報告,提升人類工作效率;有些應用也許顛覆想象,這很難預測,如代替律師訴訟,幫助醫生診斷疾病,制定醫療方案。對此,我無法預測。但就目前而言,大語言模型仍存在許多缺點,需要人類對其監管。人類需要具備辨別真假信息的能力,而這正是目前大語言模型的一個致命弱點。
十一、上個月,數千名人工智能領域知名專家學者聯名簽署一封公開信,呼吁暫停人工智能研究。當前我們的步子邁得太快了嗎?
也許是這樣的。政策法規往往跟不上技術的發展速度。對于人工智能而言,在醫療、法律、新聞業等領域部署人工智能系統存在諸多風險。盡管如此,我并沒有簽署那封信,因為該公開信泥沙俱下,其中一些風險真實存在,而有些風險存在夸大之嫌。其所描繪的人工智能危機無法令人信服。我認為需要對人工智能進行監管。即便是人工智能技術的日常應用也存在諸多風險,如偏見和不實信息。但我認為暫停人工智能技術研發并非良策。相反,我們應該了解其訓練數據,而不應單純相信OpenAI所說的“相信我們,我們知道自己在做些什么”。
十二、你如何評價當前人工智能技術的風險與益處?
首先,這些系統尚不可靠,也不具備意識,無法決定是否會做出對人類有害的事,真正可能造成傷害的是使用這些系統的人類,因此我們需要對其進行監管;
其次,我們尚未搞清人工智能的運行機制,但這并不意味著人工智能很神秘,只是非常復雜罷了。只要不斷鉆研下去,人類遲早會完全理解人工智能的運行機制。要想做到這一點,就不能讓這些系統都掌握在商業公司手中。這些語言模型提供了一個契機,幫助我們加深對認知力的認識。從它們身上,我們可以更好地理解人類自身,如人類智力的作用機制,一般智力如何發揮多樣作用。不過與此同時,我們必須保持清醒的認識,警惕在現實世界中部署此類模型所涉及的危險、風險和問題。
審核編輯 :李倩
-
神經網絡
+關注
關注
42文章
4779瀏覽量
101059 -
人工智能
+關注
關注
1795文章
47642瀏覽量
239768 -
語言模型
+關注
關注
0文章
538瀏覽量
10319
原文標題:梅拉妮·米歇爾訪談:人工智能十二問
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論