解讀《大資料時代》:為什麼不是隨機樣本

來源:互聯網
上載者:User

在《大資料時代》一書中,邁爾-舍恩伯格給出了著名的關於大資料時代的三大特徵:1)不是隨機樣本,而是全體資料;2)不是精准性,而是混雜性;3)不是因果關係,而是相關關係。 本文解讀一把為什麼「不是隨機樣本,而是全體資料」。

為什麼是隨機樣本?

首先什麼是隨機樣本。 如果你碰巧哪天在街頭被人攔住做問卷調查,或者接到電話問卷調查,恭喜你,你成為某項統計分析的隨機樣本。

很顯然,邁爾大叔所例舉的美國人口普查以及有關細分領域分析預測不准確的例子,談到的隨機樣本應該就是指問卷調查。 或許隨機樣本是邁爾大叔在書中唯一展示其有關統計學知識的部分。

那麼,為什麼要用隨機樣本呢? 原因有下:一是全體資料獲取不可能或者成本太高。 比如說你想知道北京有多少人吃過麥當勞,你不可能每個人都問一遍;二是有資源限制。 如果你要在3天內給出答案,即使不計成本你也做不到去問每個人;三是沒有必要。 因為我們可能只是需要知道吃過麥當勞的人數在北京總人口中的百分比,而且允許一定的誤差,所以只要隨機取樣,通過統計分析就能夠得到比較滿意的答案。

根據統計學原理,如果我們隨機取樣1000人進行問卷調查,如果結果是某種百分比,那麼得到的結果在置信度90%時的誤差應該在3%左右。

顯然,在資料需要通過問卷調查的形式獲取時,隨機樣本就成為我們的首選甚至是唯一的選擇。

所以隨機樣本在小資料時代很流行。

為什麼不是隨機樣本?

邁爾大叔對隨機樣本不高興,原因有三:1)實現採樣的隨機性非常困難;2)當人們想瞭解更深層次的細分領域的情況時,隨機採樣的方法就不可取了;3)人們只能從採樣資料中得出事先設計好的問題的結果。

白話一把邁爾大叔的內容。 1)樣本難以真正隨機是因為你無法根據全體資料的分佈去取樣。 比如說你電話調查,有電話的人口就已經不是隨機的樣本空間;2)如果你要進一步知道海澱區30歲以下女性吃過麥當勞的人口比例,結果誤差就會超過預期;3)問卷以外的內容你是無知的。 比如說你突然想要知道吃過麥當勞的人中有多少同時吃過肯德基但你卻沒有在調查中問這個問題,那你就甭想得到答案。

全體資料在哪兒?

我們已經處在大資料時代,如果你要瞭解北京有多少人吃過麥當勞,你會怎麼做?

顯然,麥當勞童鞋並沒有為我們準備好必要的所謂全體資料。 或許麥當勞能夠告訴我們N多年來他們在北京地區賣出了多少個巨無霸,或許麥當勞會進一步告訴我們N多年來北京地區有多少人次光顧過麥當勞。 可是,麥當勞卻沒有資料告訴我們現而今北京人有多少人吃過麥當勞。

看來現實世界比邁爾大叔想像的要複雜得多。 告別隨機樣本,我們需要全體資料。 可是,我們所需的北京地區吃麥當勞的全體資料存在嗎?

未來這個全體資料會存在嗎? 也許,除非麥當勞必須先註冊再購買。 你認為麥當勞何時會實現先註冊再購買呢? 這樣做真的有必要嗎?

即使如此,你仍舊面臨如何解決例如「究竟誰吃了全家桶」的問題。

全體資料是個抽象的概念。 但涉及到具體問題,所需的全體資料很有可能並不存在,即使是在大資料時代。

要知道北京多少人吃過麥當勞,可能還是需要進行隨機樣本分析,哪怕是在大資料時代的今天。

看來即使是在大資料時代,我們還是無法告別隨機樣本分析。

何為全體資料?

在《大資料時代》一書中,全體資料是與隨機樣本相對立的概念。 邁爾大叔這樣描述道:「首先,要分析與某事相關的所有資料,而不是依靠分析少量的資料樣本。 」因而,全體資料明白無誤地就是「所有的相關資料」。

如果我們想要知道「北京地區有多少人吃過麥當勞」,這個全體資料就應該是北京地區所有人吃麥當勞的情況。 很遺憾,我們知道這個全體資料是不存在的。

看看《大資料時代》書中全體資料的一個案例:亞伯特-拉斯洛·巴拉巴西和他的同事想研究人與人之間的互動。 於是他們調查了四個月內所有的移動通信記錄——當然是匿名的,這些記錄是一個為全美五分之一人口提供服務的無線運營商提供的。 這是第一次在全社會層面用接近于「樣本=總體」的資料資料進行網路分析。 通過觀察數百萬人的所有通信記錄,我們可以產生也許通過任何其他方式都無法產生的新觀點。

邁爾大叔的這個全體資料是「一個為全美五分之一人口提供服務的無線運營商提供的」「四個月內所有的移動通信記錄」。 啥意思? 說白了,就是一家移動公司四個月的通信記錄。 令人不解的是,雖然這僅僅是全美1/5人口四個月的通信記錄,邁爾大叔卻說「這是第一次在全社會層面用接近于「樣本=總體」的資料資料進行網路分析。 」

「全社會」與「全美1/5人口」,「樣本=總體」與「四個月內所有的移動通信記錄」,其間如何聯繫在一起?

還有,如果四個月的資料是全體資料,那三個月或者兩個月的資料算不算全體資料呢?

看來貌似簡單的全體資料,在邁爾大叔這裡也不是那麼簡單。

全體資料的前世今生

上面案例中涉及的全體資料,實質上就是一家移動運營商資料庫中四個月的通信資料。 從《大資料時代》中對全體資料的諸多應用可以看到,邁爾大叔所說的全體資料,實際上就是我們通常所說的資料庫資料。

「全體」或許只是指包含了資料庫中所有的記錄。

即使在互聯網流行之前,因為有了電腦以及資料庫技術,人類已經開始資料的記錄和累積。 特別是一些特殊的行業如銀行、電信等,顧客的購買記錄最先被完整地記錄下來,從而構成了邁爾大叔所謂的全體資料。

這絕對是小資料時代的故事。 也就是說,所謂全體資料並不是大資料時代的產物,全體資料在小資料時代就已經普遍存在了。

對所謂全體資料的分析以及基本的統計分析方法也是小資料時代的普遍現象。

被人們津津樂道的食品超市啤酒搭著尿布一起賣的故事,其資料來源甚至可能都不是所謂全體資料,因為食品超市並沒有強求每個消費者都要註冊後才能購買。

全體資料並不是我們想像的那樣是「所有的資料」,甚至也不是邁爾大叔想像的那樣是「所有相關的資料」。 全體資料依舊是部分資料,比如說只包含了一家公司的顧客資料。 全體資料依舊是取樣資料,比如說上面案列中的四個月的取樣。

誰說取樣必須只是隨機取樣呢?

全體資料的分析誤差

邁爾大叔對隨機樣本生氣的一個主要原因,就是基於隨機取樣的分析與真實情況有統計誤差,不准確。 那麼,有了全體資料,我們的分析結果就一定沒有誤差了嗎?

假定我們確實有關于北京地區吃麥當勞的全體資料。 是的,如果有了所謂的全體資料,關於單個變數的分析結果確實沒有統計上的誤差,實際上此分析也根本用不到統計學的概念。 可是,我們花那麼大精力搞一個全體資料,肯定不只是計算一些百分比,或者進行一些簡單的單元分析。 我們要用這個全體資料來做更多的事,比如說預測哪些顧客下次來會購買巨無霸。 分析師會給我們一批顧客名單,告訴我們:這些顧客75%的可能下次購買巨無霸。

75%的可能? 也就是說這個顧客還有25%的可能下次不買巨無霸。 這就是分析誤差。

事實是,除了單個變數的計算(對全體資料來說不是統計分析),全體資料在做任何統計分析時,分析結果都是概率性的,都有統計意義上的誤差。

可是《大資料時代》給讀者的印象是,只要用了全體資料,你就不用再擔心誤差了。

全體資料的取樣

根據《大資料時代》,用了全體資料,我們就再也不需要取樣了。 事實果然如此嗎?

有意思的是,在上面邁爾大叔給我們提供的全體資料分析的案例裡,研究人員只取了資料庫裡4個月的資料。 為什麼只是4個月的資料? 難道該企業的資料庫只有4個月的資料?

當然不是! 事實應該是研究人員從企業的資料庫裡之取樣了四個月的資料。 那麼,為什麼即使有了「全體資料」,研究人員還只取了其中四個月的資料?

因為對資料分析來說,絕對不是資料越多越好。 即使我們擁有無與倫比的計算速度,過多的資料也會浪費研究人員的時間資源,不必要的資料甚至可能影響分析的結果。 何況根據邁爾大叔的介紹,4個月的資料取樣已足以得到滿意的研究結果了。

看來有了全體資料,也有必要進行資料取樣。

更多關於全體資料的取樣

就上篇文章中邁爾大叔所舉的那個全體資料的例子來說,分析人員只取了資料庫中四個月的資料進行分析。 為什麼? 因為分析的任務不是要得到資料庫中每個顧客長期的人脈關係,而是通過一定時期內人際關係的分析,瞭解擁有不同人際關係的個人對整個社區關係網的影響。 因此,適當的階段性資料的取樣就十分必要。

試想一下,如果研究人員採用了資料庫中所有的資料,則可能將更多的人際關係發展的變化也包括進來,這反倒可能影響研究的結果。 所以說,全體資料不加區別的應用並不一定是最佳的選擇。

再舉一個對全體資料進行取樣分析的例子。 早年我曾經做過一個搜尋引擎演算法分析的應用,原理就是根據隨機取樣的關鍵字,到各大搜尋引擎(美國的)上去爬取搜尋結果的網頁,分析各種SEO技術對各搜尋引擎網頁排名的影響。 時間長了,我所爬取的網頁資料庫也就成了邁爾大叔所謂的全體資料。 我是不是應該每次分析時都使用所有的資料呢? 當然不是。 因為搜尋引擎在不斷改變其搜索排名的演算法,如果我將已經過時的排名網頁資訊包括在我的搜尋引擎排名關鍵因素的分析中,那就會適得其反導致分析結果的不准確。

邁爾大叔數次提起的有關飛機票價預測的資料分析,也存在著同樣的情況。 航空公司可能會改變其機票價格的決定機制。 如果在票價預測分析中包含了已經過時的票價決定機制的資訊,那分析的結果就會受到干擾而增加誤差。

資料並非絕對越多越好。 即使是全體資料,也要根據分析任務進行必要的取樣。 原因可能是多種,適當的取樣是優化分析過程和分析結果的一種選擇。 而且,取樣也不只限於隨機取樣。

全體資料的陷阱

第一個陷阱就是所謂全體資料,在絕大多數情況下並不是「全體」。 我們來看看那些絕對重量級的互聯網企業,它們最可能擁有所謂全體資料,比如說谷歌、百度、FACEBOOK、淘寶天貓,哪個公司的資料庫能夠被稱為「全體」呢?

一個企業有了資料庫,往往更願意局限于自己的資料庫來進行各種分析。 有句老話叫做「種瓜得瓜種豆得豆」。 這個全體資料分析的陷阱就是:如果你種的是瓜,你就分析不出豆來。

例如某新聞網站經常用很黃很暴力的新聞吸引網友下載它的新聞app。 久而久之,其app的使用者就可能是「黃衫軍」了。 如果這時你想通過這個「全體資料」的分析瞭解怎樣在他們中間推銷紅汗衫,肯定是不妥的。

再舉一個簡單的例子。 比如說你通過對全體資料的分析,得出某款商品是你顧客最喜歡的。 但實際情況果真如此嗎? 或許顧客喜歡的商品根本就不在你的全體資料裡,所以你再怎麼分析也根本得不到你的顧客最喜歡什麼樣的商品。

外面的世界很精彩。 你經常需要跳出全體資料,來體驗外面世界的精彩。

全體資料與隨機樣本

隨機樣本與所謂的全體資料應該屬於兩個不同範疇的概念,兩者並非楊白勞Vs黃世仁,階級鬥爭不可調和。 更重要的是,無論是隨機樣本,還是所謂的全體資料分析,都不應該是一個時代的代表。

事實是,即使擁有全體資料,隨機取樣的問卷調查分析也是需要的,甚至是必須的。

因為全體資料幾乎都不是什麼真正的「全體」資料,不可能包含所有我們想瞭解的資訊,所以經常需要在全體資料的基礎上獲得更多的資訊。 其中一種來源是與其他「全體資料」對接,比如說在美國可以根據個人社會保險號對接個人信用資訊;另一種方法就是在「全體資料」中隨機(或用其他方法)選取部分樣本,然後對這些顧客進行問卷調查,以補充資料庫中缺失的資訊, 然後通過對接將問卷調查的資訊融入到全體資料的分析中。

這樣的分析邁爾大叔應該沒有聽說過,否則他就不會將隨機樣本與全體資料這樣絕對地對立起來。 但這樣的分析卻在小資料時代就被普遍應用了。

文章最後對隨機樣本和所謂全體資料做個總結:

1)邁爾大叔所謂的全體資料,在絕大多數情況下只是指企業的資料庫資料;

2)對絕大多數問題,所謂的全體資料可能都不存在;

3)隨機樣本與所謂全體資料並不是你死我活的絕對對立,而是可以和平共處,甚至是相互補充;

4)絕大多數所謂對全體資料的分析方法,早在小資料時代就已經普遍存在;

5)隨機樣本分析在大資料時代也還會繼續展示其存在價值;

6)即使是所謂的全體資料,往往也有必要通過取樣進行更有效的分析;

7)注意全體資料的陷阱。 分析所謂全體資料時,應該想到外面世界可能更精彩。

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.