大資料:預測本屆世界盃賽事結果

來源:互聯網
上載者:User

從今天開始,又一屆世界盃賽事正式拉開帷幕,全世界的球迷與非球迷也將共同享受這段激情燃燒、熱血澎湃的美好時光。 清爽的啤酒已斟滿、閃亮的螢幕已就緒,每個人胸懷對國家的熱愛以及也許有些不切實際的期盼關注著綠茵場上的競逐。 目前關於本屆世界盃的各項統計資料已經火熱出爐;巴西預計將迎來全球各地共計370萬名觀眾,由此帶來的經濟效應高達30.HTTP://www.aliyun.com/zixun/aggregation/19145.html" >3億美元;專門銷售球星卡等周邊產品的帕尼尼公司預計單在巴西本土,由貼紙帶來的營收就將高達8910萬英鎊;而在英國,達美樂披薩估計世界盃期間其銷售總額也將達到8400萬英鎊。

不過關于某個重要話題,相關統計結果與數位似乎較為稀缺,這就是——誰能成為本屆世界盃的最後贏家。 我們可以估算出有多少球迷會親身趕赴巴西,多少英國人會在電視機前大嚼美好的披薩,又有多少狂熱粉絲收集球星卡;但我們能否利用資料來預測誰會最終奪冠? 為了避免有失偏頗,我們將一邊瞭解懷疑論者的觀點、一邊感受高盛集團等支援者對於資料驅動模型能夠成功預測世界盃冠軍歸屬的堅定決心。

懷疑論者:不,這不可能

左側球員為被換上場的弗拉米尼

簡而言之,足球是一項充滿挑戰的運動,我們很難利用分析手段準確預測其結果。 正如《經濟學家》去年在報導中所言,要在足球領域應用「魔球理論」絕非易事。 相對於棒球中那些更易衡量的離散事件,足球運動場上的二十二位參與者需要不斷移動並以無窮無盡的方式組合彼此作用。 足球天然具有動態屬性,這就讓判斷哪些因素需要考量並不斷獲取考量結果變得極具挑戰。

儘管難度極高,但這一切並非不可能;我們最近曾報導過同樣充滿動態要素的籃球運動,目前攝像系統已經能夠破解複雜的資料、告知參賽隊伍的教練員籃球以及球員在場上的具體位置——其精確程度甚至達到每個賽季每場比賽中的每一秒鐘。 類似的分析方式在足球領域同樣行得通; ProZone以及Opta等企業已經開始追蹤運動場上的一系列指標——包括比賽中運動員的位置、傳球的方式以及進球機會等等。 一般來說,每場比賽產生的資料事件約有2000個。

不過這些資料的相對價值仍然有待觀察。 球隊管理者在依靠原始資料進行球員選擇時,既有成功的案例、也遇到過失敗的狀況。 首先來看成功案例:阿森納隊主教練溫格注意到了弗拉米尼在比賽中出色的全場跑動距離以及優秀的臨場表現,並最終決定用他取代維艾拉。 不過失敗的狀況同樣存在:弗格森通過資料認定斯坦姆目前的搶斷次數已經大不如前,並決意將其淘汰出隊。 然而後期資料顯示,斯坦姆在義大利隊用卓越表現證明了自己的價值。

問題的核心在於,儘管資料能夠說明哪些球員在賽場上奔跑速度最快或者跑動距離最長、誰的搶斷次數最多,但一位優秀的足球運動員並不僅僅是幾項數值的簡單累加。 資料所反映的是過去,而並不足以證明球員未來的臨場表現仍將延續目前的綜合指標結論。

科學家:是的,我們可以

在對世界盃賽事結果進行預測時,高盛集團明智地回避了球員特定屬性這一棘手的分析角度,轉而採取更具通行性的辦法。 他們觀察各支國家隊在歷屆世界盃上的表現及其目前的Elo(即競賽水準數值)排名情況,並借此制定出一套預測模型。 他們對自己的方法作出了如下解釋:

每場賽事的結果預測都基於一套完整的迴歸分析方案,並採用自1960年以來全部正式國際比賽——也就是說不包括友誼賽——結果作為參考資訊。 這為我們帶來約14000條預測指標,用以評估我們所使用的模型計算係數。 在迴歸分析當中,因變數為每週比賽參賽雙方的進球數量。 根據文獻對足球比賽進行模型化歸納後,我們假定特定球隊在匹配特定對手時的進球數量遵循以下泊松分佈(一種常見的離散概率分佈)。

他們的這套模型發現巴西隊擁有驚人的對陣勝出率——48.5%。 他們預計巴西將在決賽中以3比1擊敗阿根廷隊,而阿根廷方面的勝率僅為14.1%。 巴西隊之所以能夠獲得如此高的評價,其因素可謂多種多樣,其中包括出色的Elo系統排名、在世界盃賽場上相對於其它賽事更為強勁的實際表現以及今年的東道主優勢——自1930年以來, 全部世界盃比賽中主辦國隊伍拿下大力神杯的比例高達30%。 根據這套模型的推算,今年巴西在自家門前奪取冠軍的機率高達65%;相比之下歐洲各勁旅的日子就不太好過了,歷史記錄顯示他們從未在美洲諸國主辦的世界盃上獲得過最終勝利。

不過這套模型完全依賴于過去的參考指標,顯然無法反映未來可能出現的不確定因素。 高盛集團曾經利用類似的分析模型以此前的表現為基礎對英國在2012年倫敦奧運會上的表現作出過預測。 他們預計英國將拿下30枚金牌與總計65枚獎牌,而事實上英國最終奪得29枚金牌與總計65枚獎牌。

史蒂芬?霍金則採取另一種完全不同的分析方式得出了迥異于高盛的預測結論,他在考量了大量資料後認為英國今年最具奪冠潛力。 在高盛的計算模型中,英國今年的表現將令人失望、甚至無法從小組賽中出線,看來英國隊最好是採信霍金的結論、以免士氣低落。 在進一步建議中,霍金認為英國採取4-3-3陣形最能發揮自身實力,而比賽時間最好選在格林威治標準時間下午三點左右,並盡可能選派光頭或者金髮球員上場(因為這類球員的得分機率更高)。 除此之外,他還建議罰任意球或者點球的運動員採取三步以上的助跑距離並用側腳踢球(這種方式能讓得分機率提高10%),並儘量讓皮球的落點在球門的左上或者右上角(這一區域的進球成功率高達84%)。 不過霍金也承認,這已經是資料在足球運動中所能給出的全部指導意見了。 畢竟在實際罰球當中,英格蘭隊的表現一直相當糟糕。

說了這麼多,大資料到底能否説明我們預測世界盃的比賽結果? 獲得答案的惟一辦法就是持續關注未來的一系列賽事,看看巴西能不能在占盡天時地利的情況下成功登頂。 當然了,各位也不妨留心一下英格蘭隊能否在其向來令人捉雞的點球大戰中有所突破。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.