□曾于裡
&HTTP://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 去逛一些大型商場,有時你會發現,啤酒旁邊擺放的竟然是尿布。 這種做法最先起源于沃爾瑪,沃爾瑪通過對超市人群購買行為的大量資料分析,發現男性來買啤酒的時候,通常也會買尿布。 於是超市將尿布和啤酒擺放在一起出售,從而提高利潤。
尿布與啤酒之間的奇妙關聯,背後是大量資料的挖掘與分析。 這個小小的案例體現的便是一種大資料思維。 維克托·邁爾·舍恩伯格在《大資料時代》提出大資料思 維的三個原則:一、不是因果關係,而是相關性;二、「樣本=全部」——不是隨即樣本,而是全部資料;三、不是精確性,而是混雜性。 也就是說,「大資料」經 由盡可能多的資料採礦出那些我們平時根本無法察覺到的隱秘聯繫,輕鬆地「知其然」,即使我們完全不知其所以然。
大資料描繪了一個激動人心的未來,也難怪很長一段時間以來,「大資料」成為最熱門的概念之一。 人們對大資料的擁躉和美好想像,一方面是我們生活的世界正在 「資料化」:「物聯網」上,購買行為的資料化;導航時,方位的資料化;微博微信上,溝通的資料化...... 這為大資料時代提供了可能;另一方面,現代社會仍面臨 著許多未解的難題,許多跨不過的障礙,人們期冀于大資料能夠「力挽狂瀾」,説明現代人走出困境。
在這樣的背景下,大資料正被不斷「神化」。 紐約時報專欄作者大衛·布魯克斯《大資料不能做什麼? 》很難得地發出了不同的聲音。 他指出大資料的幾個缺陷。 首 先,大資料擅長於分析關係的數量而非品質,因此它會忽略很多舉足輕重的資訊。 比如社交網路的資料可以分辨出你的6個同事,你一天中有76%的時間會見他 們,卻很難發現你一個一年只見兩次面的童年夥伴。 其次,大資料不懂背景。 我們說一句話究竟是認真的還是開玩笑,是為了表達憤怒還是善意,這些要放在具體語 境分析,資料分析很難搞清楚這些。 還比如大資料會帶來大量毫無意義的偽相關;資料偏愛潮流,忽視創新;原始資料其實並不原始,原始資料往往會被扭曲,等 等。
除此,也有人以為,大資料最大的問題在於,它過分誇大了資料的作用,以為資料越多越好。 事實上,我們最大的難題永遠都不是如何獲取資料,而是如何找到資料 之間的聯繫,近十年來概率模型應用的規模一再擴大,可準確率卻停滯不前——這個教訓不該被忘記。 啤酒與尿布只是最表層資料採礦,真正的資料處理比谷歌翻譯 複雜成千上萬倍,但即便谷歌翻譯已如此「先進」,你也別指望它「信達雅」。 「一個太平洋是水,加個大西洋也是一樣的水」,資料規模到達一定程度之後,繼續 擴充的意義已經不大,沒有發現關聯,再多資料也百無一用,「混雜性」其實就是「偽相關」。
人人呼喚大資料,就像人人都呼喚要創新、要改革。 然而,問題的難度永遠在於:如何創新,如何改革。 我們需要大資料思維為我們點亮思想的火花,但同時必須正 視尋找資料關聯存在的巨大艱難。 否則,大資料很容易成為一個空洞的原地打轉的話語,徒然給了很多人打了雞血般的魯莽和熱情,投入大量的人力物力財力,以為 挖到了一座「金山」,實際卻是一堆無用的資料。