世界盃期間,全球各大科技巨頭都利用大資料來預測世界盃比賽賽果,著實是讓大資料在世界盃徹底火了一把。 別以為世界盃結束了,大資料的預測就不會停止。 從預測各種現象到夜觀星相,從天氣預報到飛機失事,從美好童話世界裡的水晶球到現在的科技預測未來。 隨著資訊革命不斷的深入,大資料時代下的預測也變得更加簡單,而人類的生活進入了大資料預測時代。
預測是大資料核心價值
人們在談論大資料的採集、存儲和挖掘時,最常見的應用案例便是「預測股市」「預測流感」「預測消費者行為」,預測性分析是大資料最核心的功能。
大資料還擁有資料視覺化和大資料採礦的功能,對已發生的資訊價值進行挖掘並輔助決策。 傳統的資料分析挖掘在做相似的事情,只不過效率會低一些或者說挖掘的深度、廣度和精度不夠。 大資料預測則是基於大資料和預測模型去預測未來某件事情的概率。 讓分析從「面向已經發生的過去」轉向「面向即將發生的未來」是大資料與傳統資料分析的最大不同。
大資料預測的邏輯基礎是,每一種非常規的變化事前一定有徵兆,每一件事情都有跡可循,如果找到了徵兆與變化之間的規律,就可以進行預測。 大資料預測無法確定某件事情必然會發生,它更多是給出一個概率。
從天氣預報看大資料預測的四個條件
在互聯網之前便已經有基於大資料的預測分析了:天氣預報。 因為互聯網,天氣預報為代表的大資料預測的以下幾個特徵在更多領域得到體現。
1、大資料預測的時效性。 天氣預報細微性從天縮短到小時,有嚴苛的時效要求,基於海量資料通過傳統方式進行計算,得出結論時明天早已到來,預測並無價值。 其他領域的大資料預測應用特徵對「時效性」有更高要求,譬如股市、即時定價,而雲計算、分散式運算和超級電腦的發展則提供了這樣的高速計算能力。
2、大資料預測的資料來源。 天氣預報需要收集海量氣象資料,氣象衛星、氣象站台負責收集,但整套系統的部署和運維耗資巨大。 在互聯網之前鮮有領域具備這樣的資料收集能力。 WEB1.0為中心化資訊產生、WEB2.0為社會化創造、移動互聯網則是隨時隨地、社會化和多設備的資料上傳,每一次演化資料收集的成本都大幅降低,範圍和規模則大幅擴大。 大資料被引爆的同時,大資料預測所需資料來源不再是問題。
3、大資料預測的動態性。 不同時點的計算因數動態變化,任何變數都會引發整個系統變化,甚至產生蝴蝶效應。 如果某個變數對結果起決定性作用且難以捕捉,預測難上加難,譬如人為因素。 大資料預測的應用場景大都是極不穩定的領域但有固定規律,譬如天氣、股市、疾病。 這需要預測系統對每一個變數資料的精准捕捉,並接近即時地調整預測。 發達的感應器網路外加大資料計算能力讓上述兩點更加容易。
4、大資料預測的規律性。 大資料預測與傳統的基於抽樣的預測不同之處在于,其基於海量歷史資料和即時動態資料,發現資料與結果之間的規律,並假設此規律會延續,捕捉到變數之後進行預測。 一個領域本身便有相對穩定的規律,大資料預測才有機會得到應用。 古人夜觀天象就說明天氣是由規律可循的,因此氣象預報最早得到應用。 反面案例則是規律難以捉摸,資料來源收集困難的地震預測,還有雙色球彩票。
大資料預測的典型應用領域
互聯網給大資料預測應用的普及帶來了便利條件。 天氣預報之外,還有哪些領域正在或者可能被大資料預測所改變呢?結合國內外案例來看,以下11個領域是最有機會的大資料預測應用領域。
1、體育賽事預測
世界盃期間,谷歌、百度、微軟和高盛等公司都推出了比賽結果預測平臺。 百度預測結果最為亮眼,預測全程64場比賽,準確率為67%,進入淘汰賽後準確率為94%。 現在互聯網公司取代章魚保羅試水賽事預測也意味著未來的體育賽事會被大資料預測所掌控。
谷歌世界盃預測基於Opta Sports的海量賽事資料來構建其最終的預測模型。 百度則是搜索過去5年內全世界987支球隊(含國家隊和俱樂部隊)的3.7萬場比賽資料,同時與中國彩票網站樂彩網、歐洲必髮指數資料供應商Spdex進行資料合作,導入博彩市場的預測資料, 建立了一個囊括199972名球員和1.12億條資料的預測模型,並在此基礎上進行結果預測。
從互聯網公司的成功經驗來看,只要有體育賽事歷史資料,並且與指數公司進行合作,便可以進行其他賽事的預測,譬如歐冠、NBA等賽事。
2、股票市場預測
去年英國華威商學院和美國波士頓大學物理系的研究發現,使用者通過谷歌搜索的金融關鍵字或許可以金融市場的走向,相應的投資戰略收益高達326%。 此前則有專家嘗試通過Twitter博文情緒來預測股市波動。
理論上來講股市預測更加適合美國。 中國股票市場無法做到雙向盈利,只有股票漲才能盈利,這會吸引一些遊資利用資訊不對稱等情況人為改變股票市場規律,因此中國股市沒有相對穩定的規律則很難被預測,且一些對結果產生決定性影響的變數資料根本無法被監控。
3、市場物價預測
CPI表徵已經發生的物價浮動情況,但統計局資料並不權威。 但大資料則可能説明人們瞭解未來物價走向,提前預知通貨膨脹或經濟危機。 最典型的案例莫過於馬雲通過阿裡B2B大資料提前知曉亞洲金融危機,當然這是阿裡資料團隊的功勞。
單個商品的價格預測更加容易,尤其是機票這樣的標準化產品,去哪兒提供的「機票日曆」就是價格預測,告知你幾個月後機票的大概價位。 商品的生產、管道成本和大概毛利在充分競爭的市場中是相對穩定的,與價格相關的變數相對固定,商品的供需關係在電子商務平臺可即時監控,因此價格可以預測,基於預測結果可提供購買時間建議, 或者指導商家進行動態價格調整和行銷活動以利益最大化。
4、使用者行為預測
基於使用者搜索行為、流覽行為、評論歷史和個人資料等資料,互聯網業務可以洞察消費者的整體需求,進而進行針對性的產品生產、改進和行銷。 《紙牌屋》選擇演員和劇情、百度基於使用者喜好進行精准廣告行銷、阿雷根據天貓使用者特徵包下生產線定制產品、亞馬遜預測使用者點擊行為提前發貨均是受益于互聯網使用者行為預測。
受益于感應器技術和物聯網的發展,線下的使用者行為洞察正在醞釀。 免費商用WIFI、ibeacon技術、攝像頭影像監控、室內定位技術、NFC感應器網路、排隊叫號系統,可以探知使用者線下的移動、停留、出行規律等資料,進行精准行銷或者產品定制。
5、人體健康預測
中醫可以通過望聞問切手段發現一些人體內隱藏的慢性病,甚至看體質便可知曉一個人將來可能會出現什麼症狀。 人體體征變化有一定規律,而慢性病發生前人體已經會有一些持續性異常。 理論上來說,如果大資料掌握了這樣的異常情況,便可以進行慢性病預測。
結合智慧硬體,慢性病的大資料預測變為可能。 可穿戴設備和智慧健康設備説明網路收集人體健康資料,心率、體重、血脂、血糖、運動量、睡眠量等狀況。 如果這些資料足夠精准且全面,並且有可以形成演算法的慢性病預測模式,或許未來你的設備就會提醒你的身體罹患某種慢性病的風險。 KickStarter上的My Spiroo便可收集哮喘病人的吐氣資料來指導醫生診斷其未來的病情趨勢。 急性病卻很難預測,突變和隨機性特徵使之難以預測。
6、疾病疫情預測
基於人們的搜索情況、購物行為預測大面積疫情爆發的可能性,最經典的「流感預測」便屬於此類。 如果來自某個區域的「流感」、「板藍根」搜索需求越來越多,自然可以推測該處有流感趨勢。
繼世界盃、高考、景點和城市預測之後,百度近日推出了疾病預測產品。 目前可以就流感、肝炎、肺結核、性病這四種疾病,對全國每一個省份以及大多數地級市和區縣的活躍度、趨勢圖等情況,進行全面的監控。 未來,百度疾病預測監控的疾病種類將從目前的4種擴展到 30多種,覆蓋更多的常見病和流行病。 使用者可以根據當地的預測結果進行針對性的預防。
7、災害災難預測
氣象預測是最典型的災難災害預測。 地震、洪澇、高溫、暴雨這些自然災害如果可以利用大資料能力進行更加提前的預測和告知便有助於減災防災救災賑災。 與過往不同的是,過去的資料收集方式存在著死角、成本高等問題,物聯網時代可以借助廉價的感應器攝像頭和無線通訊網路,進行即時的資料監控收集,再利用大資料預測分析,做到更精准的自然災害預測。
8、環境變遷預測
除了進行短時間微觀的天氣、災害預測之外,還可以進行更加長期和宏觀的環境和生態變遷預測。 森林和農田面積縮小、野生動物植物瀕危、海岸線上升,溫室效應這些問題是地球面臨的「慢性問題「。 如果人類知道越多地球生態系統以及天氣形態變化資料,就越容易模型化未來環境的變遷,進而阻止不好的轉變發生。 而大資料説明人類收集、儲存和挖掘更多的地球資料,同時還提供了預測的工具。
9、交通行為預測
基於使用者和車輛的LBS定位資料,分析人車出行的個體和群體特徵,進行交通行為的預測。 交通部門可預測不同時點不同道路的車流量進行智慧的車輛調度,或應用潮汐車道;使用者則可以根據預測結果選擇擁堵幾率更低的道路。
百度基於地圖應用的LBS預測涵蓋範圍更廣。 春運期間預測人們的遷徙趨勢指導火車線路和航線的設置,公休日預測景點的人流量指導人們的景區選擇,平時還有百度熱力圖來告訴使用者城市商圈、動物園等地點的人流情況,指導使用者出行選擇和商家的選點選址。
10、能源消耗預測
加州電網系統運營中心管理著加州超過80%的電網,向3500萬使用者每年輸送2.89億兆瓦電力,電力線長度超過25000英里。 該中心採用了Space-Time Insight的軟體進行智慧管理,綜合分析來自包括天氣、感應器、計量設備等各種資料來源的海量資料,預測各地的能源需求變化,進行智慧電能調度,平衡全網的電力供應和需求,並對潛在危機做出快速回應。 中國智慧電網業已在嘗試類似大資料預測應用。
對於單個家庭來說則可以通過智慧家居設備,記錄家庭成員的起居習慣,感知使用者的舒適度,預測使用者的溫控能耗需求,進行智慧的溫控裝置控制,還可結合階梯電價表來説明使用者省錢。 Nest正式基於大資料預測使用者能耗需求的成功產品。
除了上面列舉的10多個領域之外,大資料預測還可被應用在房地產預測、就業情況預測、高考分數線預測、選舉結果預測、奧斯卡大獎預測、保險投保者風險評估、金融借貸者還款能力評估等等,讓人類具備可量化有說服力可驗證的洞察未來的能力 ,大資料預測的魅力正在釋放出來。