最近谷歌DeepMind提出了一種新的強化學習技術,這種技術以一種全新方式來模擬人類行為。它可能會比之前發布的人工智能決策系統更強大,這對希望通過自動化提高生產率的企業來說可能是個福音。
如何解決多方零和博弈中的合作困境?
DeepMind用強化學習使AI實現利益最大化。這是一種基于對等契約機制的經濟競爭模型,該模型允許在多方博弈中結盟。這篇論文其中一位作者表示,這種結盟有單打獨斗不具有的特殊優勢。
長期以來,零和游戲以其豐富的策略選擇空間和清晰的策略評估方式指導著人工智能研究。更重要的是這種競爭廣泛存在于生物界、市場經濟甚至是AlphaZero中。
DeepMind科學家首先尋求數學定義形成聯盟的挑戰,關注聯盟形成多玩家零和游戲——也就是說,數學表示的情況下,每個參與者的收益或損失的效用是完全平衡的損失或收益的其他參與者的效用。
什么是多方零和博弈?
DeepMind將之定義為每個玩家的收益或損失完全由其余玩家的損失或收益提供。在一個對稱多方零和博弈中,每個玩家的行為模式都是一樣的,這往往會產生社會困境。(一個極簡例子是“囚徒困境”)
零和博弈引入了合作后事情變得很復雜。緊急情況下,團隊必須內部協調才能有效地在游戲中競爭。合作形成的過程本身就是一個社會困境——從直覺上看,玩家應該合作來擊敗其他人,但合作團隊內部要求個體為更廣泛的利益做出妥協,但這種犧牲未必和他們的自身利益一致。此外,決定加入或離開哪個團隊以及團隊策略都是重要問題。
DeepMind嘗試了一種“禮物游戲”,在游戲中,AI扮演的玩家從一堆標記著自己代表色的數字籌碼開始。在每個玩家的回合中,他們必須拿出自己對應顏色的籌碼并將其贈送給另一名玩家,或將其棄置。全部玩家都失去自己對應顏色的數字籌碼時游戲結束,此時擁有最多顏色籌碼的玩家獲勝,贏家平分價值為“1”的籌碼,其他玩家平分價值為“0”的籌碼。
研究發現,玩家往往表現得很自私,他們囤積籌碼以至于出現了三方平局。但事實上,如果兩名玩家交換籌碼,回報會更好。DeepMind將這種過程闡述為:盡管合作能帶來更好的結果,但人人都想從欺騙行為中獲利,也就是說服對方交換然后食言。
這也就是說,如果有一種機制能維護合作行為存在,那強化學習可以適應這種博弈。這種機制就是合同——在游戲中,每個玩家必須提交一份報價,首先選擇合作伙伴,然后為該合作伙伴提出行動建議,最后玩家承諾采取的行動。如果兩個玩家提供了相同的契約,那么這些契約就具有了約束力,也就是說環境強制執行了所承諾的操作。
這種強制性機制是合作形成的基礎。
這種模型能讓我們在更廣闊的應用環境中思考契約的作用。一個沒有強制實施機制的契約系統如果可以在多方動態博弈中持續運行將最終產生一個有價值的反饋回路,這將使得AI的應用走向社會學和經濟學。
-
谷歌
+關注
關注
27文章
6192瀏覽量
105991 -
AI
+關注
關注
87文章
31494瀏覽量
270259
發布評論請先 登錄
相關推薦
評論