大資料可能是現在最炙手可熱的技術名詞了。 熱就意味著有泡沫,有值得反思的地方。 Quartz的Christopher Mims 5月6日發表了一篇文章,名為「大多數資料都不大,假裝大資料其實是瞎浪費錢」,有理有據,推薦一讀。 以下為譯文:
如果你現在還沒有加入大資料的陣營, 那你想辦法弄到一些。 畢竟, 競爭需要大資料。 如果你的資料量很小, 你將被競爭對手徹底打敗。
作為顧問和 IT公司向企業推銷的另一個大專案,在大資料背後的猜想還存在很多問題。 幸運的是,誠實的大資料實踐者(又稱資料科學家)從不放下懷疑態度, 並提出了一系列對大資料大肆宣傳感到厭倦的理由。 如下:
理由一,即使像Facebook和Yahoo!這樣的互聯網巨頭也並非總是處理大資料,Google風格工具的應用是不合適的。
Facebook和雅虎運行其巨型集群機(功能強大的伺服器集合)來處理資料。 必須要進行集群處理是大資料的標誌之一。 畢竟,在家用PC就能處理的資料不能稱為大資料。 將業務拆分為小業務,使用一系列的電腦來處理每個小業務的必要性,是類似Google計算世界上每一個網頁排名的大資料問題典型特點。
現在看來,對於Facabook和Yahoo!來說,每個業務都是用同樣規模的集群機是不必要的。 比如Facebook的情況,工程師提交給集群機的大多數任務都是 MB到GB的範圍,完全可以在一台電腦甚至筆記本電腦上完成。
Yahoo!也存在類似的情況, Yahoo!集群機所處理的資料中位數只有 12.5GB,通常臺式電腦不能處理這種任務,但一台配置較好的伺服器完全可以勝任。
以上觀點均提煉于Microsoft Research的一篇名為《 Nobody ever got fired for buying a cluster》的論文。 論文中指出即使是在最渴求資料的公司,多數問題也不必集群處理。 因為對於大量問題類型而言,集群是一個相對低效 甚至是完全不合適的解決方案。
理由二,大資料已經成為資料分析的代名詞,這種定義是混亂的,並會起到反作用。
資料分析最早可追溯到為皇家糧倉的所有糧食製表統計,但是現在你必須要在資料前加「大」字,必要的資料分析已經捲入了一場較大但是用處不大的流行風暴中。 例如,一篇文章告誡讀者「 3個步驟將大資料運用到你的小企業中」,其實小企業的資料量谷歌文檔就能處理,更不說用筆記本的EXCEL了。
這就是說,實際上大多數企業處理的資料都是被Open Knowledge Foundation的Rufus Pollock所說的小資料。 這很重要,這是一場「革命」, Pollock稱。 但它與大資料關係不大。
理由三,超大化你的資料規模正在變成一件得不償失的事情。
資料越多就越好嗎? 不儘然。 如果你正在尋找相關方程式——x,y的關係,如何能給我提供有效資訊? 實際上資料越多,隨之而來的麻煩也越大。
能從大資料中提取的資訊會隨著資料規模的增加而減少,Michael Wu(社交媒體分析公司Lithium的首席資料分析學家) 寫道。 這意味著越過了某一點後,繼續增加資料所產生的邊際資料回報率減少到如此地步,收集更多資料僅僅是浪費時間。
原因之一:資料越「大」,尋找相關性時錯誤資訊會更多。 正如資料分析家Vincent Granville在《 The curse of big data》(《大資料的詛咒》)中寫道的:即使只包括1000個條目的資料集,也很容易會陷入處理幾百萬個相關分析的處境。 」這意味著,「所有這些相關分析,有些可能會高度符合,但這僅僅是一種偶然:如果你使用這種相關分析作為預測模型,結果將會錯誤」。
這個錯誤經常在大資料的原始應用領域之一遺傳學中突然出現。 對基因組序列有興趣的科學家苦心找尋其相關性而進行的無休止的研究,最終卻得出了各種毫無益處的結果。
理由四,在某些情況下,大資料會令你茅塞頓開,但也可能會令你陷入困惑。
公司一旦開始使用大資料,就深陷於一系列艱澀學科的研究中——統計,資料品質,和其他構成「資料科學」的一切。 就像那些每天都需要發表出版物的科學,經常會被忽視或是被修正,或是從未被證實,這之中的陷阱實在太多了。
資料收集方式的偏見,上下文的缺乏,資料聚集的缺口,資料的人工處理模式和整體認知偏差都會導致即使最好的研究人員也可能發現錯誤的相關模型, 麻省理工學院媒體實驗室客座教授Kate Crawford說:「 我們可能會陷入某種演算法幻覺中」。 換句話說,即使你有大資料,也並非IT部門的任何人都能處理的,他可能需要有博士學位或等量經驗。 當處理完成後,他們的答案可能是你並不需要「大資料」。
那麼哪個更好——大資料或小資料?
你的業務需要資料嗎? 當然需要。 但是只有 尖頭髮呆伯特的老闆才會像趕時髦一樣購買具有所謂重要性的資料規模。 在科學領域同樣存在著企業使用資料制定決策時固有的問題——資料品質,總體目標以及上下文和直覺的重要性。 記住:Gregor Mendel僅利用一本筆記本的資料就發現了遺傳的秘密。 重要是資料的品質,而不是資料的規模。
原文連結: Most data isn’t 「big,」 and businesses are wasting money pretending it is
(責任編輯:蒙遺善)