大資料思維

來源:互聯網
上載者:User

標籤:

大資料時代要轉變的思維:

  • 要分析所有資料,而不是少量的資料樣本
  • 要追求資料的紛繁複雜,而不是精確性
  • 要關注事物的相關關係,而不是因果關係
  • 至今為止,人們搜集資料的能力有限,因此採用的是“隨機採樣分析”。

    例如,要想知道中國顧客都聯想筆記本的滿意度,不可能對所有買了聯想筆記本的人做問卷調查。通常的做法是隨機找1000個人,用這1000個人的滿意度來代表所有人的。

    為了使結果儘可能準確,我們會設計儘可能精確的問卷,並使樣本足夠隨機。

    這就是“小資料時代”的做法,在不可能搜集全部資料的情況下,隨機採樣分析在各領域取得了巨大的成功。

    但是,隨機採樣有三個問題:

    1. 依賴隨機性,而隨機性很難做到。例如,使用固定電話隨機打給1000戶人家,這樣也是缺乏隨機性的,因為沒有考慮到年輕人都使用手機的情況。
    2. 遠看不錯,一旦聚焦到某一點,就模糊了。例如,我們用1000個人來代表全國,這1000個人是隨機從全國選取的。但是,如果用此結果來判斷西藏的滿意度,卻是缺乏精確的。也就是說,分析結果不能適用於局部。
    3. 採樣的結果只能回答你事先設計好的問題,不能回答你突然意識到的問題。

    在”大資料時代“,樣本=總體

    如今,我們已經有能力搜集到全面而完整的資料。大資料是建立在掌握所有資料、至少是儘可能多的資料的基礎上的。

    2. 追求混雜性,而非精確性

    在“小資料”時代,最重要的就是減少測量的錯誤,因為收集的資訊較少,所以必須保證記錄儘可能精確,否則細微的錯誤會被放大。為了精確,科學家必須最佳化測量的工具。現代科學就是這麼發展過來的,物理學家開爾文(溫度的國際單位)說:“測量就是認知”。很多優秀的科學工作者必須要能準確收集和管理資料。

     

    在“大資料”時代,使用所有資料變為可能,且通常是上萬億個資料,要保證每一個資料的精確性是不可想象的,混雜性不可避免。但是,當資料量足夠大時,混亂不一定會帶來不好的結果。並且,由於放鬆了容錯的標準,所能搜集的資料多了起來,還可以利用這些資料來做更多的事。舉一個例子:

    要測一個葡萄園的溫度,如果只有一個溫度計,那必須保證這個測量儀精確且能一直工作。但是如果每100棵葡萄樹就有一個測量儀,則雖然有些測量資料是錯誤的,但是所有資料合起來卻能得到一個更準確的結果。

    因此,“大資料"通常用機率說話,而不是板著”確鑿無疑“的面孔。”大資料“時代要求我們重新審視精確性的優劣。由於資料量太大,我們不再期待精確經,也無法實現精確性。

    在圖書館我們可以看到,所有的書都被分類,例如,要找一本C語言的書籍,必須先找到”工科“分類,然後再找到”電腦“分類,再根據編號(類似於803.53x)找到需要的書籍,這是傳統的方法。如果圖書館的書少,可以這麼檢索,如果有1億本呢?10億本呢?網路上的資料可遠非圖書館的藏書量可比,動則數十億,如果使用清晰的分類,那麼不僅分類的人會瘋,查詢的人也會瘋。因此,現在互連網上廣泛使用”標籤“,通過標籤來檢索圖片、視頻、音樂等。當然,有時人們會錯標標籤,這讓習慣精確性的人很痛苦,但是,接受”混亂“給我們帶來了兩個好處:

    1. 由於擁有了遠比”分類"數量多得多的標籤,我們能夠獲得更多的內容。
    2. 可以通過標籤組合來過濾內容。

    例如,如果我們要檢索“徐長卿”。“徐長卿”至少有三種身份:是一種中草藥,是命名草藥的人的名字,是仙劍3的主人公之一。如果按照傳統分類法,可能“徐長卿”會被分到“中草藥”類裡,這還取決於分類的人。那麼查詢的人就不會知道它還有另外兩重身份,或者只想查“徐長卿"這個人的人根本就不會到”中草藥“類裡查詢。但是,如果使用”標籤“,那麼輸入”徐長卿“+”草藥“,即可查到草藥;輸入”徐長卿“+”仙劍3“即可查到遊戲的主人公。

     

    因此,使用”標籤“代替”分類“,雖然有很多不精確的資料,但是卻得到了大量標籤,使得檢索更方便,得到的結果更好了。

    3. 關注相關關係,而非因果關係

    知道”是什麼“就夠了,沒有必要知道”為什麼“,要讓資料自己”發聲“。來看一個例子:

    沃爾瑪是世界上最大的零售商,掌握了大量的零售資料。通過分析,沃爾瑪發現,每當季節性颶風來臨之前,不僅手電筒銷售量增加了,而且蛋撻的銷量也增加了。因此,當季節性暴風來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便顧客。

    看到這裡,一個馬上有人問”為什麼颶風一來,人們都要買蛋撻“?

    你問”為什麼“,說明你注重的是因果關係。而這個“因”,可能是極難分析、且複雜的,而且即便研究出來,意義真的很大嗎?對沃爾瑪來說,只要知道“颶風來了,快擺蛋撻,準備大賺一筆”就行了,這就是注重的相關關係。

    颶風與蛋撻有關,OK,行了,還能賺錢,太好了。為什嗎?不管,反正有關。

    這也是大資料時代需要轉變的思維,即關注相關關係,而非因果關係。

    通過探求”是什麼“,而非”為什麼“,能夠協助我們更好地理解世界。但是,由於因果關係在我們的思維中根深蒂固,而且有時會臆想出一些因果關係,反而帶來了錯誤的認知。例如:

    父母經常告訴孩子,天冷時不帶帽子和手套就會感冒。然而,研究表明,感冒和穿戴之間沒有直接的聯絡。在某餐館吃飯後,晚上肚子疼,我們會想到原因是餐館的食物有問題。實際上很可能是和某人握手,或飯前沒有洗手的關係。

    相關關係能給我們分析問題提供新的視角,我們不需要事事去探究為什麼,並且,它使我們相信,不探究”為什麼“也是合理的。

    但是,並不是說因果關係就應該完全摒棄,而是要靈活地以相關關係的立場來思考問題。

本文總結自《大資料時代》,作者Viktor Mayer-Schonberger。

大資料思維

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.