至今為止,人們搜集資料的能力有限,因此採用的是“隨機採樣分析”。
例如,要想知道中國顧客都聯想筆記本的滿意度,不可能對所有買了聯想筆記本的人做問卷調查。通常的做法是隨機找1000個人,用這1000個人的滿意度來代表所有人的。
為了使結果儘可能準確,我們會設計儘可能精確的問卷,並使樣本足夠隨機。
這就是“小資料時代”的做法,在不可能搜集全部資料的情況下,隨機採樣分析在各領域取得了巨大的成功。
但是,隨機採樣有三個問題:
- 依賴隨機性,而隨機性很難做到。例如,使用固定電話隨機打給1000戶人家,這樣也是缺乏隨機性的,因為沒有考慮到年輕人都使用手機的情況。
- 遠看不錯,一旦聚焦到某一點,就模糊了。例如,我們用1000個人來代表全國,這1000個人是隨機從全國選取的。但是,如果用此結果來判斷西藏的滿意度,卻是缺乏精確的。也就是說,分析結果不能適用於局部。
- 採樣的結果只能回答你事先設計好的問題,不能回答你突然意識到的問題。
在”大資料時代“,樣本=總體
如今,我們已經有能力搜集到全面而完整的資料。大資料是建立在掌握所有資料、至少是儘可能多的資料的基礎上的。
2. 追求混雜性,而非精確性在“小資料”時代,最重要的就是減少測量的錯誤,因為收集的資訊較少,所以必須保證記錄儘可能精確,否則細微的錯誤會被放大。為了精確,科學家必須最佳化測量的工具。現代科學就是這麼發展過來的,物理學家開爾文(溫度的國際單位)說:“測量就是認知”。很多優秀的科學工作者必須要能準確收集和管理資料。
在“大資料”時代,使用所有資料變為可能,且通常是上萬億個資料,要保證每一個資料的精確性是不可想象的,混雜性不可避免。但是,當資料量足夠大時,混亂不一定會帶來不好的結果。並且,由於放鬆了容錯的標準,所能搜集的資料多了起來,還可以利用這些資料來做更多的事。舉一個例子:
要測一個葡萄園的溫度,如果只有一個溫度計,那必須保證這個測量儀精確且能一直工作。但是如果每100棵葡萄樹就有一個測量儀,則雖然有些測量資料是錯誤的,但是所有資料合起來卻能得到一個更準確的結果。
因此,“大資料"通常用機率說話,而不是板著”確鑿無疑“的面孔。”大資料“時代要求我們重新審視精確性的優劣。由於資料量太大,我們不再期待精確經,也無法實現精確性。
在圖書館我們可以看到,所有的書都被分類,例如,要找一本C語言的書籍,必須先找到”工科“分類,然後再找到”電腦“分類,再根據編號(類似於803.53x)找到需要的書籍,這是傳統的方法。如果圖書館的書少,可以這麼檢索,如果有1億本呢?10億本呢?網路上的資料可遠非圖書館的藏書量可比,動則數十億,如果使用清晰的分類,那麼不僅分類的人會瘋,查詢的人也會瘋。因此,現在互連網上廣泛使用”標籤“,通過標籤來檢索圖片、視頻、音樂等。當然,有時人們會錯標標籤,這讓習慣精確性的人很痛苦,但是,接受”混亂“給我們帶來了兩個好處:
- 由於擁有了遠比”分類"數量多得多的標籤,我們能夠獲得更多的內容。
- 可以通過標籤組合來過濾內容。
例如,如果我們要檢索“徐長卿”。“徐長卿”至少有三種身份:是一種中草藥,是命名草藥的人的名字,是仙劍3的主人公之一。如果按照傳統分類法,可能“徐長卿”會被分到“中草藥”類裡,這還取決於分類的人。那麼查詢的人就不會知道它還有另外兩重身份,或者只想查“徐長卿"這個人的人根本就不會到”中草藥“類裡查詢。但是,如果使用”標籤“,那麼輸入”徐長卿“+”草藥“,即可查到草藥;輸入”徐長卿“+”仙劍3“即可查到遊戲的主人公。
因此,使用”標籤“代替”分類“,雖然有很多不精確的資料,但是卻得到了大量標籤,使得檢索更方便,得到的結果更好了。
3. 關注相關關係,而非因果關係知道”是什麼“就夠了,沒有必要知道”為什麼“,要讓資料自己”發聲“。來看一個例子:
沃爾瑪是世界上最大的零售商,掌握了大量的零售資料。通過分析,沃爾瑪發現,每當季節性颶風來臨之前,不僅手電筒銷售量增加了,而且蛋撻的銷量也增加了。因此,當季節性暴風來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便顧客。
看到這裡,一個馬上有人問”為什麼颶風一來,人們都要買蛋撻“?
你問”為什麼“,說明你注重的是因果關係。而這個“因”,可能是極難分析、且複雜的,而且即便研究出來,意義真的很大嗎?對沃爾瑪來說,只要知道“颶風來了,快擺蛋撻,準備大賺一筆”就行了,這就是注重的相關關係。
颶風與蛋撻有關,OK,行了,還能賺錢,太好了。為什嗎?不管,反正有關。
這也是大資料時代需要轉變的思維,即關注相關關係,而非因果關係。
通過探求”是什麼“,而非”為什麼“,能夠協助我們更好地理解世界。但是,由於因果關係在我們的思維中根深蒂固,而且有時會臆想出一些因果關係,反而帶來了錯誤的認知。例如:
父母經常告訴孩子,天冷時不帶帽子和手套就會感冒。然而,研究表明,感冒和穿戴之間沒有直接的聯絡。在某餐館吃飯後,晚上肚子疼,我們會想到原因是餐館的食物有問題。實際上很可能是和某人握手,或飯前沒有洗手的關係。
相關關係能給我們分析問題提供新的視角,我們不需要事事去探究為什麼,並且,它使我們相信,不探究”為什麼“也是合理的。
但是,並不是說因果關係就應該完全摒棄,而是要靈活地以相關關係的立場來思考問題。