問:
今年大資料取代了章魚保羅,成為預測世界盃戰局的熱門手段。 不過這種預測靠譜嗎?大資料真的能預測世界盃?
答:
目前採用HTTP://www.aliyun.com/zixun/aggregation/13568.html">大資料技術預測世界盃的,既有百度這樣的互聯網公司,也有德銀這樣的知名投行。
一、預測確實使用了大量資料
通過採訪百度的相關人士,我們發現百度預測世界盃的主要資料來源包括:百度搜索資料,球隊基礎資料,球員基礎資料,賠率市場資料。 百度大資料通過分析過去5年987支球隊的3.7萬場比賽資料,共涉及29610名球員,112,285,543條相關資料,構建了足球賽事預測模型。
為了驗證模型是否準確,百度用2010年南非世界盃的淘汰賽資料進行了準確性驗證,具體方法是為預測模型輸入2010年世界盃期間的比賽、球隊、球員等相關資料,由預測模型計算出淘汰賽比賽結果,與當時的比賽結果進行對比, 結果顯示16場淘汰賽算准了12場,準確率為75%。
德銀則是根據各個球隊的FIFA排名、歷史戰績、球員構成和賭球賠率等因素,建立了量化分析模型,並根據複雜計算得到一份奪冠概率表格。 其中巴西名列第一,緊隨其後的是德國、西班牙、法國。 然後再根據某些假設,得出最終的冠軍得主。
二、推算邏輯並不完美
德銀推算出的最終的冠軍得主是在概率表的基礎上得出的。 具體來說,德銀從奪冠概率表格中挑選出了前10強,這10強依據奪冠的概率排名分別是巴西、德國、西班牙、法國、阿根廷、義大利、荷蘭、葡萄牙、烏拉圭和英格蘭。 德銀認為最終的冠軍只能從這十家選出。
在篩選的過程中,德銀提出了「輪流轉週期」概念,德銀認為過去19屆世界盃當中,有3次是連續四屆世界盃由不同的四支球隊奪冠,還有2次是連續兩屆世界盃由不同的兩只球隊奪冠, 剩下的3屆即從2002-2010年的三屆世界盃構成了德銀心中又一個四屆不同得主的輪流轉週期的前3/4,德銀由此排除了3721.html">2014年巴西、義大利和西班牙奪冠的可能性, 因為它們是過去三屆世界盃的冠軍得主。
這樣就剩德國、法國、阿根廷、荷蘭、葡萄牙、烏拉圭和英格蘭七隻隊伍,然後德銀根據另一個假設:強隊會回來,即奪取過世界盃的強隊,未來必然還會奪取世界盃或至少打入一次決賽。 而英格蘭就在1966年奪過一次冠,此後至今從未進過決賽,德銀據此認為英格蘭奪冠可能性大增。
最後,本屆英格蘭隊有6名隊員來自利物浦,而正是在利物浦的球員最多的1966年,英格蘭獲得了歷史上唯一一次世界盃冠軍。 同時德銀報告的主筆人承認自己是利物浦隊的鐵杆球迷,因此,最後確定英格蘭將獲得世界盃的冠軍。
不難發現其中的邏輯非常牽強。 德銀似乎只為了得出一個想要的結果而設置了某個模型或假設,而非根據確定的科學模型來推測最終的結果。 有「本末倒置」之嫌。
百度相對來說更加科學一些,起碼推測的因果順序沒有顛倒。 但是百度的推測顯然也有漏洞,百度的模型經過自己的驗證之後,準確率也只有75%。 而且這個驗證是輸入過去的數位來推測,但是過去準確的未來並不一定準確。
三、「醉翁之意」不在預測本身
用大資料來預測世界盃比用章魚保羅更加可信(起碼從表面上來看是這樣)。 不過這種預測活動更像是利用世界盃而進行的行銷活動,目的並不是為了得出某個確定的結論,而是為了吸引網友的參與。
百度的世界盃預測還跟足彩投注活動結合,通過預測出奪冠率這一數位,為使用者購買足球彩票提供參考,更像一場商務工作。
不過,在世界盃到來的前夕,網友們通過企業所做的預測得知哪支球隊可以奪冠也是一種娛樂。 對於預測結果到底有多大的可信度不必太過認真。