3天后,2018年俄羅斯世界杯開打,首場比賽是東道主俄羅斯對陣沙特阿拉伯,將于6月14日拉開序幕。
每屆世界杯最受關(guān)注的當(dāng)屬決賽,上屆2014年巴西世界杯,東道主巴西隊意外爆冷,只獲得第四名,無緣決賽。今年的世界杯,不少機構(gòu)/研究人員給出預(yù)測:德國將和巴西爭奪冠軍,并且,巴西隊奪冠的概率更大些。
綜合各種預(yù)測和民意調(diào)查,冠軍幾乎肯定在巴西、德國和阿根廷之間展開,雖然強強爭鋒喜聞樂見,但似乎也少了些驚喜。
機器學(xué)習(xí)和大數(shù)據(jù)的方法正越來越多地被用在比賽結(jié)果預(yù)測上,不僅是世界杯,也不僅是結(jié)果,球隊組成、戰(zhàn)術(shù)選擇和球員訓(xùn)練都已經(jīng)開始見到機器學(xué)習(xí)的身影。對于球迷和觀眾而言,人工智能也將展開一種全新的參與/觀看體育賽事的體驗。
機器學(xué)習(xí)預(yù)測結(jié)果:巴西獲得冠軍
肯尼亞的投資銀行Genghis Capital Investment Bank的投資銀行分析師Gerald Muriuki,日前在Medium上公布了他使用機器學(xué)習(xí)預(yù)測FIFA 2018的結(jié)果——巴西將贏得冠軍。
這一結(jié)果跟微軟的AI和數(shù)據(jù)科學(xué)專家Sorin Peste的預(yù)測結(jié)果一致。
實際上,預(yù)測世界杯冠軍是一個典型的機器學(xué)習(xí)問題,你首先預(yù)測每場比賽的獲勝者,接著再預(yù)測小組賽、半決賽和決賽的冠軍。在這個過程中,你需要進行數(shù)據(jù)整合、特征建模和結(jié)果預(yù)測。因此,很多機器學(xué)習(xí)或數(shù)據(jù)科學(xué)家,都做過類似的項目。
Muriuki和Peste兩個人都是根據(jù)足球比賽的歷史數(shù)據(jù),建立機器學(xué)習(xí)模型,模擬比賽,并預(yù)測這些比賽的結(jié)果。下面我們分別來看看。
使用邏輯回歸進行預(yù)測
Muriuki使用了兩個來自Kaggle的數(shù)據(jù)集,包含了從1872年到2017年國際足球比賽的結(jié)果。他先分析了兩個數(shù)據(jù)集,做了一些特征工程,選擇跟2018年世界杯最相關(guān)的特征進行預(yù)測,再足控了一些數(shù)據(jù)增強。
在模型的選擇上,Muriuki用的是邏輯回歸,一種分類器算法。邏輯回歸通過使用邏輯函數(shù)預(yù)估概率,從而衡量分類因變量和一個或多個自變量之間的關(guān)系。簡單說,給定一組相關(guān)的數(shù)據(jù)后,邏輯回歸能夠預(yù)測結(jié)果(在世界杯的情況下,就是預(yù)測是輸還是贏)。
這是他的模型預(yù)測最初幾場比賽的結(jié)果:俄羅斯vs沙特,俄羅斯勝利;烏拉圭vs埃及,烏拉圭勝利;伊朗vs摩洛哥,平局。4天以后就可以驗證這個結(jié)果是對還是錯了。
16強的結(jié)果是這樣的:
四分之一決賽將在葡萄牙vs巴西,以及德國vs阿根廷之間展開。
最終巴西vs德國,巴西獲勝。
使用隨機森林進行預(yù)測
另一方面,微軟的AI和數(shù)據(jù)科學(xué)專家Sorin Peste的預(yù)測過程則更加完善。在數(shù)據(jù)的選擇上,除了歷年世界杯結(jié)果,Peste還使用了歐洲杯、奧運會等大型比賽的數(shù)據(jù),以及這些比賽的勝率分布。
此外,Peste還考慮了比賽的地址,也即是在主場、客場還是在雙方都無關(guān)的中立場所,以及比賽是否“friendly”,在踢friendly比賽時,目的不是為了贏球,而是為了觀察對手的球員和策略。
在模型的選擇上,Peste用的是隨機森林(深度500),一種根據(jù)呈現(xiàn)給它的特征生成多個決策樹的算法,并且每個單獨的樹對每個新輸入向量的結(jié)果“投票”。隨機森林的速度快,相當(dāng)準(zhǔn)確,可以對泛化誤差進行無偏估計,因此不需要交叉驗證。
下圖展示了迭代1000次后的結(jié)果,巴西獲勝,阿根廷第二。
統(tǒng)計的方法:德國戰(zhàn)車險勝巴西
當(dāng)然,除了機器學(xué)習(xí),還有更多預(yù)測是使用大數(shù)據(jù)方法。KDnuggets上一位狂熱球迷用統(tǒng)計的方法,預(yù)測德國隊會奪冠。他的操作步驟如下:
收集信息:
國際足聯(lián)世界排名:這是所有211支國家足球隊的排名系統(tǒng)。使用積分系統(tǒng),積分是基于所有FIFA認(rèn)可的國際比賽的結(jié)果。然而,這并不是最好的系統(tǒng),而且有很多缺點。
Elo評級:該系統(tǒng)最初是為國際象棋聯(lián)合會FIDE開發(fā)的,目的是給棋手打分。它的復(fù)雜矩陣根據(jù)比賽的類型分配點數(shù),并考慮到雙方的凈勝球差異。它和國際足聯(lián)的主要不同之處在于,它也統(tǒng)計了友誼賽的數(shù)量。
TransferMarkt team value:這個總部位于德國的網(wǎng)站提供了關(guān)于足球各個方面的信息,包括每個知名球員的估計市值。他們列出了參與國的名單和他們的團隊價值。
投注賠率:使用投注比較網(wǎng)站OddsChecker,采用每個國家最慷慨的賠率。
TransferMarkt的數(shù)字是歐元,而FIFA和Elo有他們自己的評級系統(tǒng),投注賠率是分?jǐn)?shù)。作者將每一個系統(tǒng)都標(biāo)準(zhǔn)化,使它們具有可比性。在統(tǒng)計中,標(biāo)準(zhǔn)分?jǐn)?shù)(也稱為z分?jǐn)?shù)/值,正常分?jǐn)?shù)或標(biāo)準(zhǔn)化值)是數(shù)值與平均值不同的標(biāo)準(zhǔn)偏差數(shù)。
2018年世界杯,四個流行的預(yù)測來源
KDnuggets預(yù)測的z分?jǐn)?shù)
如果KDnuggets的預(yù)測是正確的,那么世界杯小組賽的結(jié)果會是下面這樣的:
研究結(jié)果引出了一些有趣的結(jié)論:
德國排名第一,但僅略高于巴西。緊隨其后的是西班牙和法國。
Elo排名系統(tǒng)和投注幾率看起來最相似,都列出了相同的前五名(上面提到的四個球隊和阿根廷)。
在整個體系中有一些鮮明的對比,其中最引人注目的是秘魯在國際足聯(lián)(FIFA)和Elo排名中z分?jǐn)?shù)都排在第10位,而在TrasferMarkt的球隊價值排名卻在第30位。
民意調(diào)查:德國、巴西、阿根廷最受歡迎
除了KDnuggets上的預(yù)測,還有諸多世界杯賽前的其他預(yù)測:
《每日電訊報》對每支球隊進行了廣泛的分析,最后進行了一項投票,讓讀者預(yù)測冠軍,投票結(jié)果如下:
此外,據(jù)中新網(wǎng)報道,俄羅斯彼爾姆國立研究大學(xué)學(xué)生維克多?扎科派洛建立了一個能預(yù)測2018年世界杯冠軍的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)綜合各項參數(shù)進行分析計算后得出結(jié)論稱,世界杯前三名將是德國隊、巴西隊和阿根廷隊。
四年前,巴西在家門口以1:7輸給了德國隊,創(chuàng)下了自1920年0:6輸給烏拉圭以來最大的世界杯輸球記錄,震驚全國人民。最終,德國隊奪得了當(dāng)年的世界杯冠軍。
今年的俄羅斯世界杯,諸多機構(gòu)預(yù)測巴西和德國將上演冠軍大戰(zhàn)。巴西能否一雪前恥,德國能否成功衛(wèi)冕?我們拭目以待。
-
人工智能
+關(guān)注
關(guān)注
1794文章
47642瀏覽量
239627 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132921 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8908瀏覽量
137644
原文標(biāo)題:機器學(xué)習(xí)預(yù)測世界杯:巴西奪冠
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論