今天淩晨4點,德國對巴西的世界盃本決賽給了所有人一個大大的驚嘆號。 德國7:1戰勝巴西,讓人瞠目,巴西如此慘敗,實屬難料。 也許連谷歌的大資料預測也沒有預測到7:1的懸殊差距。
在這種情況下,討論用大資料精准預測世界可能稍顯牽強,但是畢竟,大資料預測是趨勢。
大資料發展到今天,雖然離完美預測還有一段距離,然而,不可否認,相信資料比相信直覺更加靠譜。 拋開今天淩晨這場「大比分」的比賽不談,谷歌、百度、微軟等通過分析大資料對世界盃的前期預測準確的同樣讓人驚奇。
「成功」預測世界盃16強?
谷歌的雲計算平臺成功預測了世界盃16強比賽每場比賽的勝利者。 據瞭解,谷歌使用來自即時體育比賽資料公司Opta Sports的資料,以及由BigQuery工程師喬丹·提加尼開發的實力排行榜系統,更考慮了觀眾熱情程度資料,以計算出主隊優勢,從而預測賽果。 此外,谷歌使用這一系統來預測世界盃8強的比賽,結果也驚人地準確:巴西對哥倫比亞,巴西勝概率為71%;法國對德國,法國勝概率為69%;荷蘭對哥斯大黎加,荷蘭勝概率為68%;阿根廷對比利時,阿根廷勝概率為81%。
事實上,對於預測結果,谷歌並不是唯一做出完美預測的公司,百度、微軟必應也進行了預測,大家的共同點都在於是依據雲資料系統的綜合分析來做出預測。
隨著大資料行業的發展,谷歌、亞馬遜、阿裡、百度、騰訊,都因為擁有大量的使用者註冊和運營資訊,自然地成為大資料公司。 各種資料的記錄也許看起來是隨機的,但是當這些資料由光速電腦進行分析之後,便會揭示出影像、模式、聯繫和趨勢,不僅可以提高業務績效,更改變生活。
谷歌、百度等搜尋引擎不僅存儲了搜尋結果中出現的網路連接,還會儲存使用者搜索關鍵字的行為,它能夠精准地記錄下人們進行搜索行為的時間、內容和方式,在你意識到自己要找什麼之前預測出你的意圖。
猜考題、防疫情 大資料無所不能?
去年春節期間,百度已經開始了對於春節人口流動趨勢的預測;今年清明和五一,百度對全國各大景區、城市的人流熱度做了預測,其針對2014年高考作文命題方向的預測更是「命中」了全國18套考題中的12套。 據瞭解,百度的「高考預測」還可以利用歷史搜索資料、歷年的錄取分數、各批次省控線預測全國各個大學的報考熱度、難度,各種專業的報考趨勢以及本省考生都對哪些專業、學校感興趣等。 百度CEO李彥宏表示,「對資料的挖掘整理只是大資料技術的初級階段。 除了通過大資料分析規律、趨勢,機器必須還要會自主思考才行。 」
除了IT企業計畫的疾病預測、房地產預測、就業預測、金融預測,我國疾控中心也計畫運用大資料,提前確定一定規模的未知疾病,為疫情控制爭取時間。
不過,從目前來看,大資料的分析預測能力還遠未完善。 2009年,甲型H1N1流感爆發的幾周前,「谷歌流感趨勢」預測了流感在美國境內的傳播,其分析結果甚至具體到特定的地區和州,並且非常及時,令公共衛生官員倍感震驚。 不過,2013年,谷歌對於流感的預測與美國疾病控制中心匯總後的結果相比,誇大了幾乎一倍。
業界認為,未來「大資料的精准分析不僅有賴於資料資源的擴充,更要基於大資料引擎的發展進步。 」據瞭解,IBM已推出大資料行業方案,英特爾入股了大資料初創企業Cloudera,還推出了基於Hidoop的「大資料引擎」。
專家:
資料協同和隱私問題待解
谷歌、IBM、甲骨文、SAP等企業在大資料領域進行了技術創新,越來越多的國外企業憑藉技術優勢和先行經驗進軍大資料超市。 然而,我國大資料產業發展仍然處於起步階段。 「每一次點擊、觸摸、短信、微信、微博、駕駛、飛行、通話、拍照、購買等都產生資料...... 雖然每天在產生大量資料,卻沒有顯示出足夠的威力。 」賽迪顧問分析師表示,「交通部門有車聯網、物聯網、路網監控、船聯網、碼頭車站監控等地方的大資料,衛生部門擁有流感法定報告資料、全國流感樣病例哨點監測和病原學監測資料,公安部門有大量的視頻監控資料, 但政府部門幾乎都沒有大資料處理和挖掘技術。 」
除了互聯網公司,沃爾瑪、中國移動等傳統企業也掌握著大量使用者資料,平臺企業互相獨立地應用資料淘金,各取所需,但資料的私密佔有嚴重制約著大資料的廣泛應用和融合發展。 「大資料的協同可以實現智慧路徑規劃、運力管理、流感預測、疫苗接種指導、安防追逃等。 」
《大資料時代》一書中指出,「大資料本身探尋的是一種趨勢,而非精准性,若要無限接近統計結果,必須讓大資料與精細的傳統統計方法互補,而非兩者相互替代。 」
此外,資料的隱私問題也仍然待解。 谷歌斥鉅資投入的癌症預測專案中,僅有4%的癌症患者參與到了臨床試驗資料庫專案中,這也就意味著高達96%病患的醫療和綜合體征資訊難以被其他醫療機構或者醫生輕易獲悉。
部分內容摘自《廣州日報》