強化學習之父Richard S. Sutton認為,過去70年來AI研究的最大教訓,就是我們過于依賴人類的既有知識,輕視了智能體本身的學習能力,將本該由智能體發揮自身作用“學習和搜索”變成了人類主導“記錄和灌輸”。未來這種現象應該改變,也必須改變。
近日,強化學習之父、加拿大計算機科學家Richard S. Sutton在其個人網站上發文,指出了過去70年來AI研究方面的苦澀教訓:我們過于依靠人類知識了。
Sutton認為,過去70年來,AI研究走過的最大彎路,就是過于重視人類既有經驗和知識,研究人員在訓練AI模型時,往往想將人類知識灌輸給智能體,而不是讓智能體自己去探索。這實際上只是個記錄的過程,并未實現真正的學習。
事實證明,這種基于人類知識的所謂”以人為本“的方法,并未收到很好的效果,尤其是在可用計算力迅猛增長的大背景下,在國際象棋、圍棋、計算機視覺等熱門領域,智能體本身已經可以自己完成”規模化搜索和學習“,取得的效果要遠好于傳統方法。
Sutton由此認為,過去的教訓必須總結,未來的研究中,應該讓AI智能體能夠像我們一樣自己去發現,而不是將我們發現的東西記下來,因為后者只會讓我們更難以了解發現的過程究竟是怎樣的。
以下為文章原文:
在過去70年中,人工智能研究中得出的一個最大教訓是,通用化的方法最終往往是最有效的,而且能夠大幅提升性能。造成這個結果的最終原因是摩爾定律,或者說,是摩爾定律總結出的計算力隨時間的變化趨勢。
大多數人工智能研究都有個假設前提,即智能體的可用計算力是一個不變的常量,也就是說,提升性能的方法可能就只有利用人類自己的知識了。但是,如果項目周期比一般情況較長時,一定會有豐富的計算力可以投入使用。從短期來看,研究人員可以利用自己掌握的相關領域的人類知識來換取性能提升,但從長遠來看,唯一重要的還是計算力。
我們完全沒有必要讓這兩者相互對立起來,但實際上,它們往往就是相互對立的。項目時間有限,把時間花在計算力上,就不能花在人類知識的利用上。研究人員在心理上往往會偏向某一種方式。人類知識方法往往使解決問題的方法變得復雜化,與利用利用計算力得出的通用化方法相比,適應性上不如前者。
不少AI研究人員用了很長時間才明白這個教訓,所以我覺得這個問題值得單獨拿出來講一講。
過去70年AI研究的深刻教訓:靠人類知識,遠不如靠智能體自己
1997年,IBM的計算機“深藍”擊敗了世界冠軍卡斯帕羅夫,“深藍”的開發就是基于大規模的深度搜索。而當時,大多數計算機象棋研究人員采用的方法,都是利用人類對國際象棋特殊結構的理解。
當一個簡單的、基于搜索的方法在專門的軟硬件上顯示出強大性能時,彼時基于人類知識的國際象棋研究人員沮喪地表示,這次“野蠻搜索“可能壓倒了人類的經驗和知識,取得了勝利,但這無論如何不是人們下棋的方式。這些研究人員一直希望基于“人類知識”的方法能夠獲勝,因為沒有實現這一點,他們的失望溢于言表。
計算機圍棋中也出現了類似的研究模式,不過比國際象棋遲來了20年。研究人員希望通過人類知識或棋局的獨有特征,來避開大規模搜索,但所有這些努力都證明是用錯了地方,而且,在搜索大規模應用之后,這種錯誤顯得更加明顯了。
同樣重要的是,通過智能體的自我學習來學習價值功能。像大規模搜索一樣,AI需要通過自對弈和通用學習來提升性能,實現大規模的計算應用。
搜索和學習是在AI研究中利用計算力的兩種最重要的技術。在計算機圍棋中,研究人員最初的方向也是利用人類知識,搜索用的比較少,很長時間以后,才通過搜索和學習獲得了更大的成功。
在語音識別方面,早期的研究利用了一系列基于人類知識的專門方法:詞匯、音素、人類聲道知識等。而比較新的方法更偏向統計性,并且計算量更大,基于隱馬爾可夫模型(HMM)。與國際象棋和圍棋一樣,在語音識別領域,同樣是統計方法戰勝了基于人類知識的方法。這導致所有NLP研究在近幾十年內發生了重大變化,統計和計算在這一領域占據了主導地位。最近的語音識別領域中,深度學習的興起是這個趨勢的最新體現。
深度學習方法對人類知識的依賴更少,應用了更多的計算,以及對大量訓練集的學習,生成性能更高語音識別系統。和棋類對弈一樣,研究人員一開始總是想讓系統按照人類的思維的方式運作,試圖將人類知識放輸入系統,但事實證明,最終是適得其反,而且極大地浪費了研究人員的時間。隨著計算力的迅速增長,研究人員也找到了能夠高效利用計算力的方式。
在計算機視覺領域也是如此,早期研究將“視覺”設想為搜索的邊緣或廣義圓柱體。但今天這一切都被拋棄了。現代深度學習神經網絡僅使用卷積和某些不變性的概念,并且表現得更好。
這是一個很大的教訓。我們仍然沒有完全理解這個領域,因為我們會繼續犯下同樣的錯誤。要看到這一點,并從中總結教訓,即建立我們認為理解自身思考方式的體系,從長遠來看解決不了問題,AI研究從重“人類知識”到重“計算和搜索”的演進過程,已經證明了這一點。
回顧過去,我們可以總結出下面幾點認識:
1)AI研究人員經常想要將知識傳給智能體
2)這個方式在短期內總是會有效,研究人員本人可以獲得滿意結果。
3)從長遠來看,這種方式對未來的性能提升沒有幫助,甚至有阻礙作用,
4)AI的突破性進展最終要通過基于搜索和學習進行規模化計算的方法來實現。
對于AI研究而言,最終的成功可能反而會充滿了苦澀,很多人往往理解不了,因為它戰勝的是“以人為本”的老方法。
要讓智能體自己去搜索和發現,而不是靠人類
通用方法具備強大功能,即使可用計算力已經非常強大,我們仍然可以通過增加計算力來擴展的方法。而基于計算力的搜索和學習可以按照這一方向任意擴展下去。
第二個教訓是,人類思維的實際內容的復雜程度是無可比擬的,我們不應該在嘗試尋找關于思維內容的簡單方法,如對空間、對象,多智能體或對稱性的思維內容的簡單方法。
所有這些在本質上都是復雜的外部世界的一部分,它們的復雜性是無窮無盡的,我們應該集中精力構建可以找到并捕獲這種任意復雜性的”元方法“。構建這種“元方法”的關鍵在于,智能體能夠找到很好的近似結果,但是具體執行搜索、進行發現的應該是智能體自己,而不是我們。我們希望AI智能體能夠像我們一樣自己去發現,而不是將我們發現的東西記下來,因為后者只會讓我們更難以了解發現的過程究竟是怎樣的。
-
AI
+關注
關注
87文章
31490瀏覽量
269980 -
智能體
+關注
關注
1文章
164瀏覽量
10607 -
強化學習
+關注
關注
4文章
268瀏覽量
11283
原文標題:強化學習之父:AI研究70年教訓深刻,未來探索要靠智能體自己
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論