標籤:
從去年開始,不管是互連網行業還是其他行業,“大資料”一詞開始頻繁出現。
“概念”性質的東西在中國的互連網圈子總是可以快速傳播,這裡面有很多原因,其中就有整體氛圍所致:大多數互連網的創業者都是希望通過前瞻性的創新來改變世界,受到資本追捧,最終套現。在這個過程中,概念飛快的傳播、封裝,成為各種打著標籤的產品。而實用主義者只被動接受,缺乏正確認知深刻的探索。
從可以看出,2008年大資料概念開始傳播後,在百度和Google的“大資料”和“Big Data”的檢索趨勢(資料中Baidu的PV加權處理,和Google相等同來體現趨勢對比):
大資料這詞,百度的中文檢索的爆炸性遠遠高出英文的Google檢索。
這就是矽谷臭名昭著的技術成熟度等級曲線(炒作周期),而在國內互連網行業被傳承和發揚的更厲害。
開個玩笑:“目前的大資料在國內,就好比是一堆青春期的孩子在談論“性”,每個人都喜歡談,如果不談就好像自己不正常,但只是很少人真正有經驗。真正有經驗的,卻又閉口不言,笑笑而已”。互連網行業發展迅速,這些孩子早晚都會成人,但是目前為止,絕大多數受益者只是那些打著標籤的廠商,就好比賣給青春期孩子非法出版物的商販。
大資料到底是什嗎?
那到底什麼是大資料呢?大資料僅僅是個概念還是有真正的未來呢?
首先,所有的資料的作用,都是尋找規律。
唯物主義辯證法說:世界是物質的,物質是運動的,運動是有規律的,而規律是可以掌握的。不管是最早的統計學,電腦出現後的資料分析,資料採礦,以及到現在的大資料。我們都是在探索世界中的規律,試圖通過規律來瞭解這個世界。
在沒有出現電腦和互連網的時代,前輩科學家奠定了數學和統計學的基礎。電腦出現後,對資料的儲存和計算能力大幅度增加,整理和分析資料的能力也在大大增加。而互連網的出現和發展,讓搜集的手段進一步豐富,資料量大大增加。通過資料找規律的這個遊戲也在不斷的豐富。
這個過程,資料一方面越來越大,另一方面越來越“小”的,怎麼說呢:這個過程的進化可以簡單的說成“對整體樣本的覆蓋” 和“對微觀資料價值的發掘”。資料的精髓在於抽樣和模型,因為技術手段不可能擷取所有的對象特徵,只能通過部分類比全部,通過抽象模型來描述對象。而電腦和互連網出現後,對資訊擷取能力,和對資料的分析和挖掘能力大大加強,對試圖探索的樣本覆蓋越來越大,而對對象本身的描述越來越細緻。
好比我們想知道這一車蘋果的品質。以前只隨機抽樣100個,看看外觀有沒有生蟲壞損;現在抽樣7000個,每一個蘋果用30多項資料來描述蘋果特徵和品質。以後不需要抽樣了100%的都擷取資料,然後每個蘋果100多項資料描述特徵和品質,甚至整個生長周期資料。
但是不管是統計學,資料分析,資料採礦,還是現在的大資料。我們的任務自始至終沒有變化:通過收集、整理、分析資料等手段,來尋找規律、推斷本質、甚至預測未來。
不管在任何一個階段,這個任務都是有局限的,我們僅僅可以推測對象本質的一部分而不是全部。在技術手段發展到一定階段可以產生新的技術和方法論,也可以在推測和預測上更近一步,走出的這一步可以大大提高生產力,這也是大資料的價值所在。
具體的行業中舉例
接下來我們選擇一個更容易抽象舉例的行業來說明:籃球(NBA)。
在NBA的早期,由於商業化程度不夠,對一場比賽的資料統計非常有限,不管是球員、教練、或者球隊經理對球員的認識都是在一種直覺上,或是最基礎的一些統計。
1986年NBA開始了完整的資料統計。所以現在的新聞都愛用:“自從1986有統計以來,這是第N個球員單場打出xxx資料……”NBA的統計正式進入了現代,資料庫技術的成功應用,讓你可以從www.nba.com 隨意找到曆史資料。
也從這一天起,另一個話題浮現了。正如我們喜歡把武俠小說人物武藝列高低、列座次,資料完整化之後,大量的資料引用成了媒體的新愛好。於是,“得分利器”、“防守悍將”、“投籃大師”這些詞彙,逐漸被“每場能得多少分”、“完成多少個籃板+封蓋”、“投籃命中率”等覆蓋了。所有的球迷都開始喜歡資料了。
但是只看資料,又會很難理解:年輕時的馬布裡,一個場均20分7.6助攻的人,怎麼會被叫做獨狼?看資料,會難以理解,鮑文這個資料平淡無奇,搶斷毫不華麗的傢伙,防守卻遠比兩屆搶斷王魔術師強大得多?又怎麼能理解, 斯塔德邁爾職業生涯場均8.8籃板1.4蓋火鍋,加內特在塞爾特人也就場均8.9籃板1.4蓋火鍋,但KG的防守和斯塔德邁爾,那就是天壤之別呢?
實際上,就是因為資料太單一,對球員的微觀資料的描述太少,根本無法只用資料來描述一個球員在球場上發揮的作用或者特點。
21世紀,細節化微觀資料越來越多的被融入NBA,專業的NBA資料採礦公司Synergy Sports出現了。《SI》披露過一份籃球之神喬丹的專業統計:公牛80.2%的進攻要經他之手; 83.9%的投籃是跳投;54.3%的投籃來自於球場右側;17%的進攻來自拉開單打;單打時運2.67步後拔起跳投;對手幹擾到位情況下,命中率是46.3%;等等。
到了這一地步,資料開始進入到新的時代。而今年的NBA季後賽,美國媒體開始把場均奔跑距離,速度,最快速度等等也加入到了分析的維度。新的技術手段加大了微觀資料價值的發掘。也許我們可以稱之為:大資料。
正確的看待大資料
資料的確不會說謊。但要精準說明一件事,需要足夠多的資料,和足夠微觀的挖掘。但資料,永遠不會足夠多。例如籃球比賽,資料與感知,會永遠的交織下去。越來越多的資料模型,會給出無限接近印象的結果;但是當資料或感知任何一方一統天下時,談論籃球,也就不複有樂趣了。而不論對資料多麼瞭解,也需要教練設計戰術、發揮球員特定,激勵團隊士氣,才能贏得比賽,資料本身不會“贏球”。
大資料是一種進步,但是我們完全沒有必要神話,更沒有必要妖魔化。大資料是一種概念,也只是我們認知世界發展到目前階段順理成章的產物。理智的看待大資料,讓好的為生產和研究服務,更多的發揮我們自己的創新性和主觀能動性,會更有價值。
大資料僅僅是概念還是有實用性