2017年年初,Brain vs AI的德州撲克人機大戰(zhàn)在卡耐基梅隆大學(xué)(CMU)落幕,由4名人類職業(yè)玩家組成的人類大腦不敵人工智能程序Libratus。
獲勝后人類還遭到了Libratus的無情嘲諷。
但是那時候Libratus還只是個只能在1V1局里稱霸的超級玩家,要說人類最喜歡的6人局這樣的“大場面”,當(dāng)時的Libratus還沒有拿到入場券。
而就在昨天,F(xiàn)acebook與CMU學(xué)Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus,就在人類最常見的無限制德州撲克6人局里,戰(zhàn)勝了人類頂尖選手。
跟還是不跟?高手之間的對決
Darren Elias(1986年11月18日出生)是一名美國職業(yè)撲克玩家,曾獲得四項世界撲克巡回賽冠軍。
在他與Pluribus的對決過程中,Darren Elias從來沒有遇到過如此不害怕的對手。
一個有經(jīng)驗的撲克玩家,當(dāng)有兩個J(一個面朝上,另一個藏起來,一手既不好也不壞)時,都會謹(jǐn)慎行事。但是Elias的對手看起來好像不知道該怎么做。即使當(dāng)Elias決定虛張聲勢(bluff),下注時看起來很有信心,而他的對手似乎在鼓勵他繼續(xù)!好像一點都沒有被嚇到。
最后,Elias的虛張聲勢沒有起作用,他輸了。
Elias
正如埃利亞斯先生意識到的,Pluribus知道什么時候該虛張聲勢,也知道別人在虛張聲勢,還知道什么時候該改變自己的行為,這樣其他玩家就無法確定自己的策略。32歲 Elias先生說: 它確實做了一些人類很難做到的事情。
贏的背后,只是8天的訓(xùn)練
之前AI和人玩游戲,要么是雙人游戲,如國際象棋、跳棋等,要么就是雙方之間的零和博弈(一方贏一方輸),AI可以在游戲中找到Nash equilibrium strategy(納什平衡)來保證自己不會輸。
關(guān)于Nash equilibrium strategy(納什平衡)屬于博弈論范疇(注:納什證明了,如果允許混合策略,那么任何一個博弈,只要參與者數(shù)量是有限的、參與者可以選擇的純策略也是有限的,那么這個博弈至少有一個納什均衡)。
以經(jīng)典的“石頭剪刀布”游戲為例,AI可以在游戲中找到對方的弱點和常出的手勢進行學(xué)習(xí),以達到最終的勝利,而多人撲克意味著玩家數(shù)量的增多,在更復(fù)雜的游戲中,AI難以確定如何與納什均衡相抗衡;采用固定策略不能很快觀察到的對手的策略傾向,而且需要監(jiān)控到多個玩家在游戲中策略的轉(zhuǎn)變,這對于AI多人撲克博弈來說,是一項挑戰(zhàn)。
鑒于多人游戲,如果學(xué)習(xí)多個玩家的出牌習(xí)慣等特征的訓(xùn)練數(shù)據(jù)集成本過大,這里Pluribus采用的策略是自己與自己博弈,不使用人類對手的數(shù)據(jù)作為模型訓(xùn)練的輸入。在開始時,隨機的選擇玩法,通過不斷的訓(xùn)練來提升自己的性能,這里采用的博弈策略是改良版本的迭代的蒙特卡洛CFR(MCCFR),通過自我博弈,左右手互博,自己制定了一個blueprint strategy(藍圖策略),最后對每個可能的狀況進行概率分布統(tǒng)計,通過搜索決策樹來決定下一步的行為,是叫牌還是出牌。
CFR是一種迭代的自我游戲算法,AI從完全隨機游戲開始,然后通過學(xué)習(xí)擊敗早期版本的自己逐漸改進。
在算法的每次迭代中,MCCFR指定一個玩家作為其當(dāng)前策略在迭代中更新的標(biāo)記。在迭代開始時,MCCFR根據(jù)當(dāng)前所有玩家的策略(最初是完全隨機的)模擬一手撲克牌。一旦模擬完成,人工智能就會回顧每一個玩家做出的決定,然后通過選擇其他可用的行動來預(yù)測這個決定的好壞程度。
Pluribus玩家博弈樹
在解決不完全信息博弈中搜索的問題,Pluribus跟蹤每一手,根據(jù)其策略達到目前狀況的可能性。不管Pluribus實際上握著的牌,它首先會計算如何使用可能的每一手,謹(jǐn)慎地平衡所有的策略,以保持對于對手的不可預(yù)測性。
Pluribus 中的實時搜索
撲克以外的事
之前在1V1局中大勝人類的Libratus后來去五角大樓上班去了,國防部認(rèn)為這種策略型人工智能或許可以幫助他們進行戰(zhàn)略的制定。
負(fù)責(zé) Pluribus 項目的 研究員Noam Brown說:“Pluribus的技術(shù)可以用于華爾街交易、拍賣、政治談判和網(wǎng)絡(luò)安全這些活動中,這些活動就像撲克一樣,涉及隱藏信息,因為你并不總是知道真實世界的狀態(tài)。”
盡管像谷歌這樣的公司,有著“Don't be evil”的信條,但是,不可避免的是這樣能夠理解人類策略的人工智能,還是會引發(fā)大眾對于人工智能的某種恐懼,或者說,如果這樣的人工智能被運用到軍事決策中,將會帶來多嚴(yán)重的后果?
-
AI
+關(guān)注
關(guān)注
87文章
31490瀏覽量
269876 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132918
原文標(biāo)題:AI賭神升級!無懼bluff,6人局德?lián)渫陝偈澜绻谲姡?xùn)練只用了8天
文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論