DeepMind 公司因為研制出會下棋的人工智能AlphaGo和AlphaZero而聲名鵲起,如今他們將注意力轉向了另一種棋盤游戲:強權外交(Diplomacy),也被稱為外交或者外交風云,是經典的桌面游戲之一。該游戲與圍棋不同,它是七人游戲,需要游戲玩家既競爭又合作,并且每回合玩家都會同時進行移動,因此,每個玩家都必須推理其他玩家的想法,非常復雜。
研制一個能玩外交游戲的人工智能軟件,DeepMind公司的計算機專家Andrea Tacchetti表示:“與游戲Go或國際象棋相比,這是一個本質上不同的問題。” 去年12月,Tacchetti和合作者在NeurIPS會議上就其系統發表了一篇論文,該論文介紹了能玩外交游戲的AI系統策略。
“外交”是一種策略游戲,在歐洲地圖上劃分為75個省。玩家建立并動員軍隊占領各省,直到控制了大部分補給中心的玩家獲勝。玩家每回合寫下自己的行動,然后執行。他們可以攻擊或防御對方玩家,或者支援對方玩家的進攻和防御,建立聯盟。在完整版中,玩家可以協商,為了方便人工智能研究,DeepMind公司使用了簡單版的“No Press”策略,不需要人工智能軟件發布策略與其他玩家進行溝通。
從歷史上看,人工智能使用人工制定的策略來發揮決策作用。2019年,蒙特利爾研究所的Mila通過使用深度學習系統取得了勝利。他們基于150000個人類游戲的數據集,訓練了一個稱為DipNet的神經網絡來模仿人類。DeepMind從DipNet版本開始,使用強化學習(一種反復試驗)來完善它。但是,僅通過反復試驗來探索可能性會帶來問題。因此,他們調整了強化學習算法。在訓練過程中,他們在每一步中都對對手的可能舉動進行采樣,計算出在這些情況下平均效果最佳的行動,然后訓練自己的權重以偏向于此行動。經過訓練,它跳過了采樣過程,僅根據其學習的知識進行工作。Tacchetti說:“我們論文的信息是:我們可以在這樣的環境中進行強化學習。” 他們設計的一個AI玩家與六個DipNet的AI贏了30%的時間(有14%的機會)。一個DipNet對抗他們的七個,僅贏得了3%的時間。
今年4月,Facebook將在ICLR會議上發表一篇論文,描述他們在“No Press”版本的外交游戲中的研究成果。他們建立了類似DipNet的網絡,但是沒有添加強化學習的元素,而是添加了一個“SearchBot”搜索玩家策略,SearchBot通過玩幾回合來評估玩家的每種潛在策略(假設每個人都根據神經網絡的首選選擇后續行動)。策略不是一個最佳行動組合,而是由50個可能行動組成的一組概率(由神經網絡建議)。
在真實游戲中進行這樣的探索會減慢SearchBot的速度,但可以使它更優于DipNet。SearchBot在外交游戲網站上與人類進行了匿名比賽,在玩家中排名前2%。Facebook的計算機專家、論文的共同作者亞當·勒勒(Adam Lerer)說:“這是第一個被證明具有能與人類競爭的機器人。”
責任編輯:lq
-
人工智能
+關注
關注
1792文章
47445瀏覽量
239053 -
強化學習
+關注
關注
4文章
268瀏覽量
11272 -
DeepMind
+關注
關注
0文章
130瀏覽量
10883
原文標題:DeepMind又出AI大招
文章出處:【微信號:robotmagazine,微信公眾號:機器人技術與應用】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論