毋庸置疑,對大資料的討論已經成為當前IT界的重要議題,原因在於,大資料未來會在非常廣泛的領域扮演重要角色,比如股票、廣告等與資料密切相關的領域,而在一些社會問題上,大資料也將提供解決方案,比如疾病預防、春運分析等等。 總的來說,大資料時代已經全面來臨。
從理論上講,大資料主要是對過去的資料進行分析和統計,通過一定的模型來預測未來某些事件的走勢。 比如在今年巴西世界盃期間,百度、谷歌、微軟和高盛等巨頭對全部64場比賽的勝負結果,以及冠軍和黑馬進行了預測。 然而,無論是四分之一決賽還是16強淘汰賽,百度預測結果準確率都達到100%,甚至比高盛和谷歌的精准度還要高出很多。
那麼百度為什麼會在這方面超過其他幾家呢?剛才提到,在大資料領域,模型非常重要,預測結果是否準確取決於預測模型是否給力,正是因為幾家巨頭採用了不同的預測模型,才導致了預測結果相差甚遠。
從這個案例上,我們不難看出百度在大資料預測方面已經取得了不俗的成績。 有專家認為,隨著大資料技術的不斷發展,對重大事件的預測在精准度上將得到不斷提升,但由於大資料涉及的問題太複雜,因此,也可能出現預測不准,誤差較大的情況。 比如,百度在9月底推出的電影票房預測首次試水便出現了一定的偏差,這是為何?
結合專家的觀點來看,應該說,出現這樣的烏龍事件並不奇怪,百度電影票房預測畢竟是首次試水,在模型方面也許還存在一些需要完善的地方。 只有通過不斷的實踐和總結,對模型進行調整和改進,其預測的精准度才會不斷的得到提升。
類似的情況在其他互聯網巨頭身上也有所體現,此前Google流感趨勢曾成功預測出美國、德國、比利時等國的流感爆發;但同樣是Google流感趨勢,在對包括 2011年的美國流感,2008年的瑞士流感進行預測時, 就過高估計了流感的病例數量,顯得非常不靠譜。
對大資料而言,雖然預測的精准度是大家關心的重要問題,但還有一點更重要,就是對大資料持續發展的推動,並且盡最大可能普及大資料應用。 在這個問題上,外界應該持擁抱、參與、支援的態度,而不是一葉障目的挑剔與奚落。
在這方面,百度也顯得非常「淡定」,雖然在首次票房預測上擺了一道烏龍,但百度對大資料應用推廣和普及所做的貢獻是非常突出的。 百度除了利用大資料對疾病和世界盃進行預測,還和聯合國開發計畫署合作,共建大資料聯合實驗室。 據悉,該聯合實驗室的工作重點是利用百度的大資料技術對行業資料進行分析加工和趨勢預測,為聯合國制定發展策略提供建議。 實驗室現階段的研究重點是環保和健康領域,未來還將聚焦教育和災害管理等議題。
在商業化方面,百度也積極和其他企業合作,推動大資料在商業層面的應用。 比如百度和萬達、騰訊合作,建立大資料聯盟,實現優勢資源大資料融合,共同打造線上線下一體化的使用者體驗。 又比如,廣發銀行攜手百度,通過大資料深挖客戶需求,更好的為客戶服務。 這些案例都是大資料在商業領域的經典應用。
應該說,大資料對社會發展的意義是非常重要的,它將驅動傳統產業的升級和創新,帶來多元化的價值。 在這種背景下,百度等巨頭活躍在大資料領域,致力於通過大資料為經濟發展、社會發展提供多層面的支援,這種精神是值得肯定和鼓勵的。