2017 年 1 月 4 日晚上,Master 完勝第 59 盤棋的時(shí)候,突然發(fā)聲自認(rèn):“我是 AlphaGo 的黃博士”,Master 之前以橫掃千軍的姿態(tài)戰(zhàn)勝幾乎所有中國的圍棋大師,包括“棋圣”聶衛(wèi)平和柯潔。本文帶來新智元智庫專家白碩、鄧侃的獨(dú)家解讀。同時(shí),中國圍棋 AI 的一名開發(fā)者也透露了他的看法:Master 的水平略有些讓人失望。新智元還采訪了中國圍棋隊(duì)總教練俞斌,他在文中談了自己的看法和理解。這一次,機(jī)器可能不再借用人類經(jīng)驗(yàn),而是憑借自我對(duì)弈和學(xué)習(xí)戰(zhàn)勝了人類,讓人類認(rèn)識(shí)到另一個(gè)“真理”的存在。從某種程度上來說,這是一個(gè)新的“紀(jì)元”的開啟。
1 月 4 日晚上,之前橫掃圍棋界的神秘大師“Master”忽然發(fā)聲,自揭身份,它寫道:我是 AlphaGo 黃博士。
此時(shí),Master 剛剛?cè)〉玫?59 場(chǎng)不敗紀(jì)錄,將對(duì)戰(zhàn)人類棋手的紀(jì)錄變?yōu)?59:0。之前,人們的猜測(cè)是Master 在完成 60 場(chǎng)比賽后,會(huì)隱退或者發(fā)聲。但是,沒有人想到,在 59 場(chǎng)的時(shí)候,Master 自己表明了身份。
官方聲明:
Master 已經(jīng)在線上平臺(tái)上接連戰(zhàn)勝了聶衛(wèi)平、柯潔、樸廷桓、唐韋星、范廷鈺、王古力、周俊勛和黃云嵩等多位圍棋高手。
戰(zhàn)勝“棋圣”,黃博士是誰?
2017 年下午 3 點(diǎn) 04 分,聶衛(wèi)平執(zhí)白三又四分之一子之差負(fù)于 Master,Master 取得第 54 勝!
聶衛(wèi)平在圍棋圈有“棋圣”之稱,只是這次,他也拿 Master 沒辦法。對(duì)弈結(jié)束后,Master 用繁體字打出了“謝謝聶老師”的消息。這個(gè)時(shí)候,其實(shí) Master 的身份已經(jīng)有所暗示了。后來 Master 所說的“黃博士”,指的是黃士杰博士。黃博士是***人。
如果大家有看 3 月份李世乭與 AlphaGo 對(duì)奕的話,應(yīng)該會(huì)注意到在李世乭對(duì)面有個(gè)將 AlphaGo 的棋步下到棋盤,并且將李世乭的棋步再輸?shù)?a target="_blank">電腦上的人。這位就是 Google DeepMind 的資深研究員,也是 AlphaGo 的主要程序開發(fā)者、***出身的黃士杰博士。
▲ 黃士杰(前左)在替 AlphaGo 執(zhí)子。
黃士杰博士畢業(yè)于***師范大學(xué),博士論文就是以“應(yīng)用于電腦圍棋之蒙地卡羅樹狀搜索演算法的新啟發(fā)式演算法”,本身也是業(yè)余六段的圍棋棋手。
之前,黃士杰在接受 Engadget 的采訪時(shí)曾說,如果再給 AlphaGo 一年半載的話,說不定李世乭真的就是史上唯一贏過 AlphaGo 一場(chǎng)的人了……
果然,半載之后,我們看到令人嘆服的結(jié)果。
Master 的技術(shù)沒有想像得那么好?
對(duì)于此次掀起風(fēng)暴的 Master,新智元智庫專家白碩評(píng)價(jià)說:
第一,并不意外。如果世界上還有另外一個(gè)團(tuán)隊(duì)達(dá)到這樣的水平反而是意外。
第二,又有進(jìn)步。現(xiàn)在的 AlphaGo 水平比去年戰(zhàn)勝李世乭的時(shí)候發(fā)揮更穩(wěn)定、對(duì)人類棋手更有啟發(fā)性,對(duì)人類觀眾更有觀賞性,導(dǎo)致人類對(duì)棋理的認(rèn)識(shí)正在醞釀重大的突破。
第三,還有潛力。按現(xiàn)在勢(shì)頭發(fā)展,基于對(duì)弈棋譜的深度學(xué)習(xí)和左右互搏的增強(qiáng)學(xué)習(xí),正在形成良性互動(dòng)的局面,但愿這一階段不要太快結(jié)束。
第四,除了不斷增強(qiáng)對(duì)弈能力外,讓機(jī)器以人類能理解的方式講述其棋路,以全新的體驗(yàn)變革人類傳授和學(xué)習(xí)圍棋的方式,其意義不亞于戰(zhàn)勝人類。
新智元問及其他的機(jī)器包括國內(nèi)的一些圍棋 AI 是否有機(jī)會(huì)超越 Master 呢?是否需要重大演算法突破才能破解 Master 的時(shí)間積累優(yōu)勢(shì)?
白碩說:“我知道有人在做。如果能大幅提高演算法的效率,就意味著在同樣時(shí)間內(nèi)可以遍歷更多有意義的變化,增強(qiáng)學(xué)習(xí)會(huì)做得越好。個(gè)人判斷,演算法上的優(yōu)化仍有空間,趕超仍有機(jī)會(huì)。未來機(jī)器之間的對(duì)弈會(huì)是新的看點(diǎn)?!?/p>
然而,也有專業(yè)人士表示有些失望。一名要求匿名的中國某大型網(wǎng)絡(luò)公司 AI 開發(fā)者對(duì)新智元表示,Master 橫掃人類棋手毫不意外,但是對(duì)過程有點(diǎn)失望,Master 的技術(shù)沒有想像得那么好,畢竟去年 7 月份 Aja Huang 在一次演講中透露可以讓頂尖棋手 2 子,半年過去了,看不出一定能讓 2 子。也許這并不是最新版。
棋風(fēng)奔放怪異,因?yàn)闆]有學(xué)習(xí)過人類棋譜?
在 DeepMind 官方宣布之前,“Master”的身份激發(fā)了多方猜測(cè),有不少人認(rèn)為這就是 AlphaGo 的升級(jí)版,但與后者不同的是“Master”的招法極其奔放,推翻了很多人類棋手常走的定式,棋風(fēng)與去年 3 月的 AlphaGo 大不相同。
值得注意的是,DeepMind 公司創(chuàng)始人 Hassabis 曾在一次采訪中透露,他們正在嘗試訓(xùn)練一個(gè)沒有學(xué)習(xí)過人類棋譜的人工智能,而這可能就是 Master 和 AlphaGo 不同的原因。
CMU 博士鄧侃對(duì)新智元表示:
3 月份 AlphaGo 與李世乭對(duì)決第一盤,取得勝利后,就說明演算法已經(jīng)超越人類頂級(jí)高手。接下去的幾盤,AlphaGo 贏了,這是預(yù)料之中。輸了一盤,反倒有點(diǎn)奇怪。因?yàn)檠菟惴ㄖ粫?huì)越變?cè)綇?qiáng)大。
隨著訓(xùn)練越來越強(qiáng)化,AlphaGo 的棋藝越來越精致,這是自然而然的趨勢(shì)。戰(zhàn)勝所有人類高手,只不過是時(shí)間的問題。但是看不出 (現(xiàn)在的)AlphaGo 的演算法,有本質(zhì)突破。至少?zèng)]有讀到 DeepMind 在這個(gè)領(lǐng)域的新論文。
AlphaGo 系統(tǒng)中,有 Monte Carlo tree search(蒙地卡羅樹狀搜索演算法),不妨把它理解為左右手互博,互博時(shí)間越長(zhǎng),實(shí)際上就是把各種可能的對(duì)弈方案,統(tǒng)統(tǒng)演練一遍。所以,AlphaGo 的訓(xùn)練時(shí)間越長(zhǎng),它對(duì)各種對(duì)弈方案的了解就越全面。
在自我對(duì)弈中成長(zhǎng)起來的新 AlphaGo,可能完全不需要人類棋譜。
被認(rèn)為與 AlphaGo“必有一戰(zhàn)”的世界第一柯潔,在這次對(duì)戰(zhàn)中也敗下陣來,但是柯潔在微博上寫的感想倒是很值得深思。
他寫道:“新的風(fēng)暴即將來襲。我從 3 月份到現(xiàn)在研究了大半年的圍棋軟件,無數(shù)次的理論、實(shí)踐,就是想知道電腦到底強(qiáng)在哪里。昨夜輾轉(zhuǎn)反側(cè),不想竟一夜難眠,人類數(shù)千年的實(shí)戰(zhàn)演練進(jìn)化,電腦卻告訴我們?nèi)祟惾清e(cuò)的。我覺得,甚至沒有一個(gè)人沾到圍棋真理的邊。但我想說,從現(xiàn)在開始,我們棋手將結(jié)合電腦,邁進(jìn)全新的領(lǐng)域達(dá)到全新的境界。”
專訪中國圍棋隊(duì)總教練俞斌:慢棋是人類最后的機(jī)會(huì),但是懸念不大
在 Master 身份確定后,新智元第一時(shí)間聯(lián)系了中國圍棋隊(duì)總教練俞斌進(jìn)行專訪。
新智元:您覺得人類棋手還有機(jī)會(huì)嗎?
俞斌:基本上沒有。只留有一絲懸念,就是長(zhǎng)時(shí)間的慢棋,但只是懸念,我判斷慢棋也不行。
新智元:如果下慢棋,人類棋手最后的突破口可能是什么呢?
俞斌:慢棋人的錯(cuò)誤會(huì)少很多,但能否一爭(zhēng)勝負(fù)有懸念。感覺可能性很小。
新智元:之前有人認(rèn)為,人類棋手以后只和人模擬,而機(jī)器棋手只會(huì)和機(jī)器棋手對(duì)決了,您認(rèn)為圍棋最后是這樣嗎?
俞斌:人與人比會(huì),機(jī)器與機(jī)器比也有,但不會(huì)只是這兩種。人與機(jī)器、人帶機(jī)器,用時(shí)、讓子等等,還是會(huì)有不少比的類型的。也許會(huì)有機(jī)器參加的團(tuán)隊(duì)賽等。
新智元:看來機(jī)器的加入反而有了更多玩法。那么您認(rèn)為機(jī)器的出現(xiàn),看起來像人類的天花板,人類圍棋是否會(huì)放下勝負(fù)心,真正達(dá)到人和人對(duì)圍棋本身的享受呢?
俞斌:哲學(xué)問題。圍棋是勝負(fù)的游戲。享受的是勝負(fù)的樂趣。有人工智能高手,并不影響享受圍棋的樂趣。沒有勝負(fù)而享受圍棋,我理解不了。這是我個(gè)人的哲學(xué)觀點(diǎn)。
一次橫掃千軍的網(wǎng)絡(luò)對(duì)戰(zhàn),Master 的進(jìn)擊之路
2016 年 12 月 29 日晚上 7 點(diǎn)多,一位名叫“Master”的新手登錄弈城,起初沒有高手搭理,但在戰(zhàn)勝謝爾豪四段、孟泰齡六段、于之瑩五段、韓一洲四段、喬智健四段后這個(gè)賬號(hào)熱度陡增。這晚 Master 十戰(zhàn)全勝,已注定其出世不凡。
第二天中午“Master”再度現(xiàn)身,在對(duì)王昊洋六段、嚴(yán)在明三段等職業(yè)棋手 4 連勝后,終于引出了韓國第一人樸廷桓九段。重頭戲開始上演,結(jié)果也是重量級(jí)的,樸廷桓在必?cái)【置嫦鲁瑫r(shí)負(fù)。此結(jié)果在高手中掀波,接著等級(jí)分排名第 7 的連笑七段登場(chǎng)挑戰(zhàn),卻連敗兩場(chǎng)!值得注意的是,緊接著 Master 與帳號(hào)為“吻別”的網(wǎng)絡(luò)棋手交鋒兩次,均以中盤獲勝。弈城網(wǎng)工作人員表示,“吻別”很有可能就是擁有 4 個(gè)世界冠軍頭銜的當(dāng)今世界圍棋第一人柯潔。如果“吻別”真是柯潔,那就意味著 Master 對(duì)當(dāng)今中、韓第一人的戰(zhàn)績(jī)是 6:0。
31 日,“Master”又連續(xù)戰(zhàn)勝各大挑戰(zhàn)者,其中新科百靈杯冠軍陳耀燁九段也以失敗告終,最后的最后,這位堪比“掃地僧”的神秘高手連續(xù) 30 盤不敗,像是在逗大夥玩似的來了句:“今天累了,明天休息一天?!?/p>
最終敗在“Master”棋下的有江維杰九段、辜梓豪五段、樸永訓(xùn)九段、柁嘉熹九段、井山裕太九段、孟泰齡六段、金志錫九段……
連一旁觀戰(zhàn)的柯潔九段都大驚失色:“從來沒見過這樣的招法,圍棋還能這么下?”為此他感嘆:看 Master 的著法,等于說以前學(xué)的圍棋都是錯(cuò)誤的,原來學(xué)棋的時(shí)候要被罵的著法現(xiàn)在 Master 都下出來了。同樣的,知乎網(wǎng)友 @趙小康 評(píng)論,Master 對(duì)陣這些圍棋高手,“大多數(shù)對(duì)局都是中盤取勝,人類數(shù)千年時(shí)間總結(jié)出的定式、大局觀在 Master 面前顯得陳腐可笑?!?/p>
2017 年 1 月 3 日 9:30,棋手古力九段按捺不住,最終發(fā)出 10 萬元懸賞,獎(jiǎng)勵(lì)給戰(zhàn)勝 Master 的勇士。但其后又有 4 位頂尖棋手被擊敗……
不過就在 51 場(chǎng)連勝之后,1 月 4 日,“Master”第 52 盤以和棋結(jié)束,“Master”的 51 連勝紀(jì)錄就此終止。這場(chǎng)比賽中,“Master”挑戰(zhàn)中國圍棋職業(yè)選手陳耀燁。 “Master”執(zhí)黑棋、陳耀燁執(zhí)白棋,30 秒 3 次快棋。不過陳耀燁出現(xiàn)了斷線情況,30 秒沒有落子,系統(tǒng)判定和棋。
今日,“Master”出現(xiàn)以來最受矚目的比賽在 Master 和聶衛(wèi)平之間進(jìn)行。年屆 64 歲的中國棋圣和“Master”的比賽也是這個(gè)人工智能程序進(jìn)行的第 54 局比賽。本局“Master”特意把比賽用時(shí)調(diào)整為每方 1 分鐘一手,以示對(duì)聶衛(wèi)平的尊敬。
最終本局進(jìn)行至手,執(zhí)白的聶衛(wèi)平以 7 目半的劣勢(shì)落敗。本局“Master”在右上角下出犀利的手段,吃掉了聶衛(wèi)平一塊棋由此確立優(yōu)勢(shì),并保持到了最后。而隨著棋圣聶衛(wèi)平落敗,“Master”將自己的不敗紀(jì)錄延續(xù)至 54 場(chǎng),中日韓高手無一能在這次“快棋”對(duì)決中取勝。
4 日晚,隨著古力敗下陣來,Master 對(duì)人類棋手獲得了 60 場(chǎng)不敗的紀(jì)錄。
AlphaGo 技術(shù)原理
AlphaGo 從 3 月份至今,經(jīng)過 10 個(gè)月的發(fā)展,已經(jīng)有了非常長(zhǎng)足的進(jìn)步,不過要追溯其技術(shù)原理,最詳細(xì)的還是 3 月份發(fā)布在 Nature 的封面論文:Mastering the game of Go with deep neural networks and tree search(透過深度神經(jīng)網(wǎng)露和樹狀搜索,學(xué)會(huì)圍棋游戲)。
AlphaGo 給圍棋帶來了新方法,它背后主要的方法是 Value Networks(價(jià)值網(wǎng)絡(luò))和 Policy Networks(策略網(wǎng)絡(luò)),其中 Value Networks 評(píng)估棋盤位置,Policy Networks 選擇下棋步法。這些神經(jīng)網(wǎng)絡(luò)模型透過一種新的方法訓(xùn)練,結(jié)合人類專家比賽中學(xué)到的監(jiān)督學(xué)習(xí),以及在自己和自己下棋(Self-Play)中學(xué)到強(qiáng)化學(xué)習(xí)。這不需要任何前瞻式的 Lookahead Search,神經(jīng)網(wǎng)絡(luò)玩圍棋游戲的能力,就達(dá)到了最先進(jìn)的蒙地卡羅樹狀搜索演算法的級(jí)別(這種演算法模擬了上千種隨機(jī)自己和自己下棋的結(jié)果) 。我們也引入了一種新搜索演算法,這種演算法將蒙地卡羅模擬和價(jià)值、策略網(wǎng)絡(luò)結(jié)合起來。
透過將 Value Networks、Policy Networks 與樹狀搜索結(jié)合起來,AlphaGo 達(dá)到了專業(yè)圍棋水準(zhǔn),讓我們看到了希望:在其他看起來無法完成的領(lǐng)域中,AI 也可以達(dá)到人類級(jí)別的表現(xiàn)!
評(píng)論
查看更多