IT從來是寂寞的,它沒有鮮亮的外表和跌宕的故事供人消費。 但借著「大資料」的東風,IT變得火熱起來。 各行各業都開始用「大資料告訴你......」來造句。 順著「所有公司都是IT公司」的邏輯,那麼,「說什麼都是在說大資料」。
大資料在受到熱捧的同時,受到的批評也不少。 近日,一篇《大資料、大安利》的文章總結了幾點國外對大資料濫用的批評,原文附錄如下:
1,無意義的顯著性:沒有理論HTTP://www.aliyun.com/zixun/aggregation/14294.html">的大資料是皮毛,只看到顯著相關性,但不經檢驗,沒有理論,這樣的相關是沒有意義的, 或許是虛假。 關鍵是:大資料的data point太多,在計算上找到兩個向量的顯著關係極其容易,但正是因為資料量大,控制虛假關係反而更難,這是一個兩難。 我有一篇文章投出去,匿名評審說:樣本很大,當然能找到顯著相關,但是看不出意義。
2,採樣方法問題:統計學家方凱撒總結了一個現象,谷歌、facebook等網路收集的資料,往往不具有同質性,是在不同的時間用不同的資源收集,隨後把整個資料合併起來,結果大資料內部許多部分的資料根本不是用同樣的方法收集的, 統計抽樣的基本假設都被推翻了。 而且網路資料和線下資料的內容不一致,比如華爾街郵報的電子版和紙版就不一樣,而且使用者可以自訂內容。
3,機器語言不穩定:谷歌最開始用關鍵字預測感冒流行地區,開始說比疾控中心預測的還准,但後來越來越不准。 有人認為這是谷歌的搜索演算法在不停地改進,所以自動收集資料不穩定了。 另外機器語言一旦被誤導會越錯越離譜,比如谷歌翻譯是根據真實的文章總結的,但是有些網路的「真實」翻譯其實是谷歌翻的,於是谷歌會把自己的翻譯基於這些「真實」文章上。
當企業提到大資料的時候,往往希望把全部資料收集起來,加以分析,這也是理想場景下的大資料分析應用。 但很多時候,企業會受到技術和成本的掣肘,仍然採用抽樣分析。 實際抽樣中往往需要分層,分層抽樣的情況下,後期統計運算都必須一個權重,權重是和該層被選擇的概率成反比的。 一個階層式權重高,在分析中就不可忽視。 大資料的問題是它只能收集到權重低的資料。
現實生活中也是這樣,最容易研究的物件往往最無聊,心理學經常上課找大學生做實驗,所以現在以大學生為樣本的文章很難發表了。 因此,有時大資料雖然大,卻往往不重要。
無獨有偶,《黑天鵝》一書也說到,決定社會變革的大部分是帕累托分佈,並不是鐘形分佈,這表面上看來暗合了「資料越大越不重要」的觀點。 但實際上是對大資料的消費者有了更高的要求,怎樣在海量的資料裡挑選出看似風馬牛不相及的變數聯繫在一起得出結論。
大資料因為概念鬆散,理論欠缺,被填充進了太多的假像。 如何結合具體的應用場景,滿足業務需求才是企業內大資料技術落地的正確方向。