揭開全體資料的神秘面紗(下)--疑讀《大資料時代》(四)

來源:互聯網
上載者:User


本文接著繼續對全體資料進行更多的分析。

更多關於全體資料的取樣

就上篇文章中邁爾大叔所舉的那個全體資料的例子來說,分析人員只取了資料庫中四個月的資料進行分析。 為什麼? 因為分析的任務不是要得到資料庫中每個顧客長期的人脈關係,而是通過一定時期內HTTP://www.aliyun.com/zixun/aggregation/7185.html">人際關係的分析, 瞭解擁有不同人際關係的個人對整個社區關係網的影響。 因此,適當的階段性資料的取樣就十分必要。

試想一下,如果研究人員採用了資料庫中所有的資料,則可能將更多的人際關係發展因素也包括進來,這反倒可能影響研究的結果。 所以說,全體資料不加區別的應用並不一定是最佳的選擇。

再舉一個對全體資料進行取樣分析的例子。 早年我曾經做過一個搜尋引擎演算法分析的應用,原理就是根據隨機取樣的關鍵字,到各大搜尋引擎(美國的)上去爬取搜尋結果的網頁,分析各種SEO技術對各搜尋引擎網頁排名的影響。 時間長了,我所爬取的網頁資料庫也就成了邁爾大叔所謂的全體資料。 我是不是應該每次分析時都使用所有的資料呢? 當然不是。 因為搜尋引擎在不斷改變其搜索排名的演算法,如果我將已經過時的排名網頁資訊包括在我的搜尋引擎排名關鍵因素的分析中,那就會適得其反導致分析結果的不准確。

邁爾大叔數次提起的有關飛機票價預測的資料分析,也存在著同樣的情況。 航空公司可能會改變其機票價格的決定機制。 如果在票價預測分析中包含了已經過時的票價決定機制的資訊,那分析的結果就會受到干擾而增加誤差。

資料並非絕對越多越好。 即使是全體資料,也要根據分析任務進行必要的取樣。 原因可能是多種,適當的取樣是優化分析過程和分析結果的一種選擇。 而且,取樣也不只限於隨機取樣。

全體資料的陷阱

第一個陷阱就是所謂全體資料,在絕大多數情況下並不是「全體」。 我們來看看那些絕對重量級的互聯網企業,它們最可能擁有所謂全體資料,比如說谷歌、百度、FACEBOOK、淘寶天貓,哪個公司的資料庫能夠被稱為「全體」呢?

更多的陷阱倒不是因為「全體」這個名稱,但是這個名稱肯定會增加陷阱的深度。

一個企業有了資料庫,往往更願意局限于自己的資料庫來進行各種分析。 有句老話叫做「種瓜得瓜種豆得豆」。 這個全體資料分析的陷阱就是:如果你種的是瓜,你就分析不出豆來。

例如某新聞網站經常用很黃很暴力的新聞吸引網友下載它的新聞app。 久而久之,其app的使用者就可能是「黃衫軍」了。 如果這時你想通過這個「全體資料」的分析瞭解怎樣在他們中間推銷紅汗衫,肯定是不妥的。

再舉一個簡單的例子。 比如說你通過對全體資料的分析,得出某款商品是你顧客最喜歡的。 但實際情況果真如此嗎? 或許顧客喜歡的商品根本就不在你的全體資料裡,所以你再怎麼分析也根本得不到你的顧客最喜歡什麼樣的商品。

外面的世界很精彩。 你經常需要跳出全體資料,來體驗外面世界的精彩。

全體資料與隨機樣本

不知為什麼在邁爾大叔的世界觀裡,除了全體資料就是隨機樣本,楊白勞Vs.黃世仁,階級鬥爭絕對不可調和。

然而事實並非如此。 即使擁有全體資料,隨機取樣的問卷調查也是需要的,甚至是必須的。

因為全體資料幾乎都不是什麼真正的「全體」資料,不可能包含所有我們想瞭解的資訊,所以經常需要在全體資料的基礎上獲得更多的資訊。 其中一種來源是與其他「全體資料」對接,比如說在美國可以根據個人社會保險號對接個人信用資訊;另一種方法就是在「全體資料」中隨機(或用其他方法)選取部分樣本,然後對這些顧客進行問卷調查,以補充資料庫中缺失的資訊, 然後通過對接將問卷調查的資訊融入到全體資料的分析中。

這樣的分析邁爾大叔應該沒有聽說過,否則他就不會將隨機樣本與全體資料這樣絕對地對立起來。 但這樣的分析卻在小資料時代就被普遍應用了。

「不是隨機樣本,而是全體資料」。 這是《大資料時代》給出的大資料時代最著名的時代特徵。 我用了三篇文章對隨機樣本和所謂全體資料進行了分析。 本文結束前我再做個總結:

1)所謂全體資料,在絕大多數情況下只是指企業的資料庫資料;

2)世界上可能不存在能夠解決各種問題的所謂全體資料;

3)隨機樣本與所謂全體資料並不是你死我活的絕對對立,而是可以和平共處,甚至是相互補充;

4)所謂全體資料以及對全體資料的分析方法,早在小資料時代就已經普遍存在;

5)隨機樣本分析在大資料時代也還會繼續展示其存在價值;

6)即使是所謂的全體資料,往往也有必要通過取樣進行更有效的分析;

7)分析所謂全體資料時,應該想到外面世界可能更精彩。

總之,隨機樣本與所謂的全體資料(實際是資料庫資料)應該屬於兩個不同的概念,若將其對立則邏輯上有問題。 更重要的是,無論是隨機樣本,還是所謂的全體資料分析,都不應該是一個時代的代表。

隨機樣本代表不了小資料時代,所謂的全體資料也代表不了大資料時代。


聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.