2013年6月19日,筆者微信上關注的一個共用帳號「油價早知道」推送了這樣一條資訊:「油價早知道友情提示:根據油價輿情跟蹤分析,6月22日淩晨油價或上調(概率超過70%),上調幅度約在100元/噸。 」第二天,油價早知道繼續提示油價上調消息,並且給出上調幅度0.1元/升,6月21日,油價早知道發佈的消息就已經是發改委發佈的油價提升通知。
油價早知道又一次提前三天預報了油價調整的資訊,從上線以來,他們的預測準確率已經超過95%! 這是一個典型的大資料應用的例子,這也是筆者看到的,在中國落地比較好的一個大資料應用的例子。
關於大資料,從去年開始,在全世界範圍內與雲計算、物聯網、3D列印等一起,已經成為炙手可熱的話題。 但到底什麼是大資料? 大資料究竟有些什麼特性? 我們應該怎樣應用大資料? 它將給我們的生活帶來什麼樣的變化? 這些問題的探討一直在進行,很多企業都在思考,如何在企業的IT建設中應用大資料,實現企業運營的創新。
大資料(big data),百度上的定義是:指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為説明企業經營決策更積極目的的資訊。
Gartner給出了這樣的定義。 「大資料」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
IBM對於大資料特性的4V描述目前普遍為業界所接受:(1)Volume,資料體量巨大。 從TB級別,躍升到PB級別;(2)Variety,資料類型繁多。 不止包括傳統的格式化資料,還包括來自互聯網的網路日誌、視頻、圖片、地理位置資訊等等。 (3)Value,價值密度低,商業價值高。 以視頻為例,連續不間斷監控過程中,可能有用的資料僅僅有一兩秒。 (4)Velocity,處理速度快。 1秒定律。 最後這一點也是和傳統的資料採礦技術有著本質的不同。
如果單純按這四個特徵去理解大資料,也許會把大資料理解成為全量資料或者叫做全息資料。 而這樣的資料應用,似乎只有在超大型或者大型專案裡才能建設起來,而這些與傳統的資料倉儲又有什麼差別?
最早洞見大資料時代發展趨勢的資料科學家之一舍恩伯格給出的三條大資料特徵或許能夠讓我們更好地理解大資料。 舍恩伯格的大資料特徵可以用三個詞語來描述:更多、更亂、相關性。
在這裡的更多,是針對研究物件本身,要考慮與物件相關的更多維度的資訊,而不是傳統的企業內部資訊,例如運營商在研究客戶離網率預測的時候,不僅僅只研究客戶的計費資料,也可以將客戶的位置資訊, 甚至是在SNS網上的言論資訊等增加進來。 所以,大資料不一定能做到全量(而誰能夠定義到底全量是什麼呢? )而只是逐漸增加的「更多」。
更亂,是採集的資料噪音更多,甚至在研究某一問題時會對預測結果擾動較大的資料維度。 這就需要運用互聯網的「試錯」思維,不斷研究可能的在採集和資料處理過程中形成的噪音,反復實踐,在大資料中淘出來最有用的「小資料」。 上文提到的油價早知道應用中,開發者體會之一就是在對於SNS的文本資訊的上下文處理的不斷演算法調整,剔出的噪音包括其它主題對於油價的干擾等,使得小資料集合更加精准。 例如,某個相關大V在討論計程車價格問題時說到,如果計程車價格上漲,那麼油價也一定是上漲了。 人腦對於這樣的語言能夠很快判斷出來,主題是在講計程車價格問題,而機器就很難明白這一點。 如果從這樣的句子中得到油價上漲的資訊,則對於整個油價判斷就是一個干擾。
相關性,是找到資料之間的相關性,對研究物件的發展進行更好的預測。 Google的工程師能夠比美國官方衛生部門更早地預測流行性感冒的例子就是一個很好的說明。 Google的資料工程師不是病理專家,他們不可能知道流行性感冒的原因是什麼,但是他們能夠通過與流行性感冒相關的一些資訊表現,預測到流行性感冒的即將到來。
從上述三個特徵及舉例來看,大資料應用,不只是國家戰略,企業戰略這樣的大應用,它恰恰可以通過無數的與我們生活息息相關的「小應用」來不斷推動發展,從高高的神壇中走下來,走入真正的市場應用。
但是,在大資料逐漸走入我們的日常生活的時候,我們也應該清醒地認識到,任何一門技術的發展,都是一個規範(制度)、技術、應用不斷互相配合共同發展的過程。 最近沸沸揚揚的「棱鏡門」事件,就讓民眾對於大資料有了一個冷靜的認識。 6月17日,筆者在微博上寫下了這樣的一句話:「斯諾登事件終於將"資料權"提到公眾視野,誰希望生活在1984裡老大哥的統治下呢? 有人想成為老大哥,但民眾已不是上個世紀。 大資料的第一個坎或者第一個發展中斷點逐漸顯現。 」
因此,儘快實現「規範(制度)、技術、應用」的匹配也應該是每一個從業者的責任。 操縱著大資料技術的廠家可以更多地參與到基礎規範研究中,應用探索者可以在不斷深化應用的過程中積累經驗,參與到基礎理論的建設中。 而擔負著國家資訊方向的相關部門更應該高度重視大資料規範(制度)的建設,畢竟,這不是哪一個行業或者企業能夠單獨完成的。
大資料的小應用,正在湍流不息地湧入到我們的生活當中,油價早知道就是一個很好的例子,有了這樣的探索,相信與我們生活息息相關的健康早知道、旅遊早知道、交通早知道、股票早知道... 也不遠了。