編者按:如果有一天AI能征服世界,那近日OpenAI Five在Dota2國際邀請賽的表現一定會被釘在恥辱柱上:接連兩天,它們先是輸給了本屆大賽上最先出局的職業隊伍之一,之后又輸給了技術已不復當年的退役選手。更凄涼的是,這不是勢均力敵的對抗,而是人類對機器的單方面調戲和虐殺……
近兩年,世界上最前沿的AI系統已經開始拋棄人類經驗,依靠自學從零開始逐漸成長,其中最典型的是DeepMind的AlphaZero,它能在短短8小時內就從一無所知的“嬰兒”成長為精通圍棋、將棋和國際象棋的頂級大師。
但研究人員還在努力,他們希望能把這個成果擴展到游戲以外的領域。
游戲AI的前世今生
在DeepMind的圍棋AI出現以前,如果機器想打敗人類,它們至少還得尊重人類積累下的經驗。
1997年,為了擊敗當時的國際象棋冠軍Garry Kasparov,IBM的工程師們準備了幾個世紀的國際象棋資料,這也是超級計算機“深藍”能獲勝的主要原因。
但現在,這種窮舉法已經過時了。研究人員正在重新思考用機器整合人類知識的方式,而目前的主流趨勢是:不要插手。
是的,人類選擇尊重AI的學習自主性。去年10月,DeepMind團隊發布了一個新的棋類AI:AlphaGo Zero。它無需任何人類資料數據,只要給出游戲規則,它就能自我博弈,不斷進步。AlphaGo Zero的第一次嘗試是完全隨機的,在每場比賽結束后,它都會對所取得勝利和未取勝的新知識進行總結。經過訓練,最后這個AI和曾擊敗過李世石的AlphaGo直接對決,以100比0拿下了徹底的勝利。
緊接著,在去年12月,精通三種棋類游戲的AlphaZero在比賽中擊敗AlphaGo Zero,把剛登上最佳圍棋AI寶座的后者趕了下去。之后,DeepMind宣布棋類項目正式終止,但這系列AI給社會帶來的巨大震動卻遲遲無法平息。在AI咄咄逼人、別創一格的棋風中,人類第一次對機械“智慧”感到驚奇。
2016年,李世石與AlphaGo的對決
除了圍棋,自學AI在***、Dota2上也開始嶄露頭角。以Dota2為例,去年,OpenAI的強化學習bot在中路solo中擊敗職業選手Dendi,贏得眾人矚目。而今年,他們又推出5人團隊OpenAI Five,這些AI已經可以在比賽中擊敗業余玩家,并且據稱天梯分在6000以上。雖然在Ti8上連輸兩局,提前“淘汰”,它們的進步之大還是有目共睹的。
但游戲并不是這些實驗室,以及實驗室背后的投資機構的唯一目標,他們有更大的野心。DeepMind希望把類似方法用于構建室溫超導體、把蛋白質折疊成藥物分子等現實問題。OpenAI也曾直言開發這類技術是出于現實場景需要,至于瓜分獎金池里的2500萬美金,這在宏圖大志面前只是個微不足道的“小目標”。
當然,他們中也有一幫人只是想單純實現“人工智能”,讓機器人能像人一樣思考,并對不同類型的問題作出多種選擇——這個定義不明的目標確實令人著迷。
機器學習領域是近年來的吸金熱門,盡管無數人在這些AI系統中進行了投資,但我們目前還不清楚這種技術能走多遠。按照華盛頓大學計算機科學家佩德羅·多明戈斯的說法:“我不確定這種想法是否能被推廣,游戲和現實是兩個世界?!?/p>
完美的目標,不完美的世界
許多游戲,比如國際象棋和圍棋,它們的一個共同特點是玩家隨時可以觀察棋盤上雙方棋子的位置,也就是玩家是站在全知視角的,他們掌握著游戲狀態的“完美信息”。在這種情況下,無論棋局多復雜,他們要做的就是結合看到的場景進行思考。
但現實并非如此,大多數現實世界的戰略互動都會涉及隱藏信息,比如用機器診斷疾病或進行商務談判。
Dota2的視野是受限的。在游戲中,地圖本身是黑的,只能靠英雄、建筑和偵查守衛提供一定視野,這就意味著AI要根據不完整的數據信息進行推斷,同時預測雙方英雄的發育進度。在這兩場比賽中,可以發現AI的發揮很大程度上需要依賴視野,當敵方走進樹林陰影后,它們不會預判對方走位,大多數時候都選擇放棄追殺。
而這種不完全信息在星際2里就更突出了。這是一款非常考驗操作和戰略意識的游戲,玩家需要培養自己的部隊進行作戰,目標是拆光敵方大本營。但是,整片戰場從頭到尾會一直籠罩在陰影中,玩家只能依靠己方建筑和部隊獲得一定視野。加上地圖很大,即便只是派小兵去偵查,偵查結果也會充滿不確定性。
從DeepMind放出下一個目標是星際2的豪言后,他們就再沒有公布任何突破性進展。過大的動作空間、過快的推進節奏,每個玩家——無論是人類還是機器——在點下鼠標的一剎那,都要擔憂未來的一系列可能性。
有明確目標的任務:訓練小人在陌生環境中前進
盡管面臨挑戰,星際2還是有一個簡單明確的目標:消滅你的敵人。這和圍棋、國際象棋、Dota2等游戲都一樣。因此從算法角度看,這類游戲就可以設置一個“目標函數”,用它定義自己的目標。
但現實生活中的情況并非如此簡單。比如自動駕駛汽車需要更細致的目標,它的目標不僅是到達目的地,也不是規劃最佳路線,在行駛過程中,它的任務是多元的:把乘客送至正確地點、遵守交通法規、在意外情況下保障行人安全……
面對復雜問題如何設計目標函數,這是區別普通研究員和機器學習研究員的一個關鍵。
最大的敵人是自己
雖然世界一直在變,但有些事也一直沒有改變,比如現在主導游戲AI的算法,它們其實是幾十年前的產物。多倫多大學的計算機科學家大衛杜文德認為:“這基本上就是以往積累的一次大爆炸,讓過去的算法更廣為人知?!?/p>
無論是圍棋、國際象棋還是Dota2,AI的策略都依賴強化學習,我們之前說過,這是一種“人類不干預”的方法,研究人員不會對具有詳細指令的算法進行微觀管理,而是讓機器探索環境并通過反復試驗來學習如何達到目標。
事實上,在AlphaGo及其后代出現以前,DeepMind團隊就已經憑借雅達利游戲上過一次頭條。2013年,他們開發除了一個會玩7種雅達利游戲的AI,并證明它能在三個游戲上能擊敗人類頂級玩家。
這一研究進展現在還在繼續。今年2月5日,DeepMind發布了IMPALA,一個可以學習57個雅達利2600游戲的AI系統,其中還包括他們設置的30個等級。在這些游戲中,AI玩家們在不同環境中漫游,完成開門、采蘑菇等目標。這個系統的價值在于讓AI學會游戲與游戲之間的共同經驗,從而減少學習用時。
然而,這種自我探索、自我博弈的想法可以追溯到幾十年前。在20世紀50年代,IBM工程師Arthur Samuel創建了一個跳棋游戲程序Checkers,它具備自學習和自適應能力,能在下棋過程中不斷積累所獲得的經驗。在20世紀90年代,同樣是IBM,Gerald Tesauro將算法和其自身對立起來了,發現這樣做的效果能讓機器在游戲中超出人類水平。
它背后的核心思想就是由策略不同導致結果不同,從而為算法提供即時反饋。“無論什么時候你學到了東西,哪怕只是一小點經驗,你的對手就會馬上用它來對付你?!边@是去年影魔和Dendi中路對線時,OpenAI的研究主管Ilya Sutskever說過一句話。
在自我博弈游戲中,你永遠不能休息,你必須一直改善。
但是,自我博弈只是當今主流游戲AI的一個組成部分,它還需要一種方法將游戲體驗轉化為更深層次的理解。比如在Dota2中,AI需要總結出使自己更易于獲勝的戰術,它們可以和人類總結的經驗一致:每路都有英雄占線、抱團推塔、gank、刷錢,掐點搶神符……也可以是區別于人類的一些東西:前期給輔助更多經驗和錢。
要做到這一點,就不得不提這些年來熱度持續飆升的深層神經網絡。它由一系列層組成,每層包含大量人造神經元。當信號觸發某一層中的神經元時,它們會把信號層層傳遞下去,直到最終生成輸出。而為了保證輸出的準確性,網絡需要大量訓練樣本。
這就是自我博弈能和它很好地融合在一起的原因。自我博弈可以產生大量的游戲數據,為神經網絡提供理論上無限量的自學樣本。反過來,深層神經網絡提供了一種內化經驗和模式的方法。
但這里還是有一個問題,這種由自我博弈生成的數據,它們在模擬環境中可能非常完美,但在現實場景下就不一定了。
比如OpenAI之前推出的五指機器人手Dactyl,這只手能用手指轉動手中的方塊,最高記錄是保持連續轉動50次不掉落。它之所以成為一個“重磅新聞”,是因為現在的機器人手往往在模擬時非常靈巧,但在現實中連基本抓握都很難實現,更別提擰瓶蓋、使用螺絲刀這樣的操作了。
對于難以模擬的問題,自我博弈的用處并不大。按蒙特利爾大學深度學習的先驅Yoshua Bengio的話講,就是:“真正完美的環境模型與模型學到的東西之間存在巨大差異,尤其是在現實情況十分復雜的情況下?!?/p>
洗去“炒作”的鉛華
在上文中,我們已經給出了為什么游戲AI在現實中一無所用的兩個原因:
游戲環境是完美的,現實環境是復雜多變、信息不完整的,它們非常不同。
自我博弈是一個無休無止的過程,而且它對于難以模擬的現實問題用處不大。
下面我們來談第三個,也是最后一個。
這么多年來,機器已經在很多領域展現出了可以媲美人類的“智能”,比如國際象棋的“深藍”,棋類游戲的AlphaZero,或是Dota2的OpenAI Five。但脫去炒作和吹噓后,它們對現實世界的實質性作用是什么?
我們以在智力問答節目中“智商碾壓人類”的IBM Watson為例。這是AI中最貼近人類生活的,多年來它一直在醫療界默默奉獻,針對病人研究和設計個性化的癌癥治療方法。但在IBM向世界各地的醫院推廣這個方案的三年后,全球采用這個系統的醫院只有幾十家,而且這種方法并沒有IBM預期的那么好用。
更有甚者,在上個月,Watson被爆出驚天丑聞,有醫療機構稱AI給出的用藥建議會導致嚴重出血的癌癥病人出血更加嚴重??紤]到這個系統已經輔助84000名患者治療,這樣的事件將嚴重打擊人們對AI的信任。
這是因為AI作出判斷不需要太多常識性知識,而培養一個醫生是建立在閱讀大量醫學文獻和進行大量的基礎研究的基礎上的。
雖然基于強化學習的AI能搜索巨型空間,也可能在自然語言處理上作出一些突破。但如果我們的最終目標是讓機器像人一樣“智能”,那么現如今的自我博弈AI還有很大的上升空間。
至少在我看來,目前AI展現出來的東西和真正的思維活動、思想的創造性探索還存在巨大差距。人們期望的“智能”是存在的,但它主要在偉大的AI研究人員的腦海中。——MIT認知科學家Josh Tenenbaum
現在的AI還不足以稱之為AI,在現實場景下,一些非常簡單、專業的工具可能實用性更強。
-
人工智能
+關注
關注
1792文章
47425瀏覽量
238957 -
機器
+關注
關注
0文章
784瀏覽量
40757
原文標題:由Dota2 AI引起的思考:為什么自學成才的AI系統在現實世界一無所用
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論