解讀《大資料時代》:大資料時代的神話

來源:互聯網
上載者:User
關鍵字 大資料時代 我們 大資料

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

  

地球人都知道我們處在大資料時代,或許地球人也都知道關於大資料時代最著名的一本書就是邁爾-舍恩伯格所著的《大資料時代》。

我本以為大資料這麼高深的學問絕不是我們這樣的屌絲能夠理解或者使用的,所以一直對此書敬而遠之,不敢閱讀。 不料周邊談論大資料的人越來越多,談論《大資料時代》這本書的人也越來越多,似乎不讀《大資料時代》,估計連屌絲都做不成了。 所以斗膽請來《大資料時代》。 一讀,果然不懂,許多疑問。

何為大資料?

這是一個很令人困惑並且絕對屌絲的問題,平時都不好意思開口問別人,希望從書中得到答案。 遺憾的是,邁爾大叔在書中就根本沒有告訴我們什麼是大資料,這對像我這樣習慣在課堂裡死記硬背的學生來說,就產生了輕微的智障:怎麼似乎什麼都是大資料。 可要我記住哪一個卻十分困難。

看完此書,我只能回答說大資料就是資料多資料大。 可是這個回答似乎有明顯的問題。 邁爾大叔在書中就舉了一個大資料的例子,這個大資料只有「4000」和「兩小時」。

在解釋大資料時代不需要精准性時,邁爾大叔這樣寫道:

「互聯網上最火的網址都表明,它們欣賞不精確而不會假裝精確。 當一個人在網站上見到一個Facebook的「喜歡」按鈕時,可以看到有多少其他人也在點擊。 當數量不多時,會顯示像「63」這種精確的數位。 當數量很大時,則只會顯示近似值,比方說「4000」。 這並不代表系統不知道正確的資料是多少,只是當數量規模變大的時候,確切的數量已經不那麼重要了。 另外,資料更新得非常快,甚至在剛剛顯示出來的時候可能就已經過時了。 所以,同樣的原理適用于時間的顯示。 谷歌的Gmail郵箱會確切標注在很短時間內收到的信件,比方說「11分鐘之前」。 但是,對於已經收到一段時間的信件,則會標注如「兩個小時之前」這種不太確切的時間資訊。 」

4000個「贊」或者兩小時(120分鐘)也是大資料?我開始崩潰了!

我想是不是邁爾大叔可能考慮到我們對過萬的數位數不過來所以有意簡化,挑選我們能夠理解的「大資料」來說明他的論斷。

指鹿為馬是謂荒唐。 可是,如果對馬沒有定義,那指鹿為馬就無所謂了。

呵呵,邁爾大叔還真幽默。

何為大資料時代?

我讀西洋人寫的書,總是覺得讀書時很爽,讀完後基本記不住。 讀《大資料時代》也有同感。 很多很多的大資料例子,讀完合上書後基本上一個都記不住。 不過邁爾大叔可能知道我的這個毛病,所以提綱挈領,總結了大資料時代的三大特徵。 這就是地球人都知道的大資料時代的三大特徵:1)不是隨機樣本,而是全體資料;2)不是精准性,而是混雜性;3)不是因果關係,而是相關關係。

一本書,三句話,一個時代的特徵!楚漢河界,涇渭分明,一目了然。

小資料時代是隨機樣本、精准性和因果關係,大資料時代是全體資料、混雜性和相關關係。

可是我的腦子就是轉不過來,沒法從邁爾大叔的三個簡單扼要的特徵總結中悟出大資料時代來。 這個看上去忒簡單的總結,其實真的很深奧。 簡直可謂深不可測!

一大堆的問題等著邁爾大叔來回答。

比如說,是不是大資料時代就不要隨機取樣分析了?小資料時代是否也有所謂的全體資料?比如說30年前互聯網未流行前美國銀行或保險公司擁有的資料是不是全體資料?怎樣定義全體資料?谷歌、百度、FACEBOOK或者騰訊, 哪個公司擁有所謂的全體資料?為什麼有了全體資料分析就要完全拋棄隨機樣本分析?如果考慮到隨機樣本分析會影響到分析結果的精度,不是大資料時代不追求精度嗎?

關於大資料時代不要精准性,我怎麼也拐不過彎來。 你說,大資料時代的老師教學生「2+2或許等於3.9」,公司會計記帳錯了也可以對老闆理直氣壯地說「現在是大資料時代了」,甚至到飯店吃飯付帳也不要精准了....。.呵呵,這日子還讓不讓人活啊?!

還有有關因果關係和相關性的問題,這也要命!我一直認為人與猴子的根本區別在於人喜歡問個「為什麼?」。 原本兩個猴子,一個不斷好奇地問「為什麼日落就要睡覺」,結果大腦不斷進化變成了人;另一個只是看到日落就上樹睡覺,結果至今還是猴子。 現在好了,大資料時代不需要問「為什麼」了,豈不苦了我們從猴子變人過程中長期培育起來的好奇心了。

因果關係與相關關係的區別,就是因果關係在相關關係上問了個」為什麼「。

流傳甚廣的有關超市將啤酒與尿布一起賣的大資料例子。 說是通過大資料分析發現,人們在買尿布時通常也會買啤酒,於是就將啤酒與尿布陳列在一起賣。

如果你生活在大資料時代,故事到此結束了。

如果你還好奇地想知道為什麼人們買尿布時要買啤酒。 呵呵,對不起,你和我一樣還生活在小資料時代。

我們無疑生活在一個互聯網的時代,這是一個充滿海量資料的世界。 資料的多種形式、資料的多種來源、資料之間的多種複雜的聯繫,都使我們這個世界變得更加神秘但也更加激動人心。 這就是大資料時代。

對大資料時代的探索,猶如當年美國對西部的探險,充滿許多傳說和神話。 《大資料時代》或許可能就是這樣一本充滿神話與傳說的探險記。 我們為之心動,但依舊要活在現實的生活中,現實生活中的那些規律依舊適用。

即使是大資料時代,我們依舊需要問」為什麼「,我們依舊需要教會孩子「2+2=4」,我們甚至依舊要做隨機樣本分析。

大資料並沒有改變我們現有社會的基本生活邏輯。

大資料時代,平常人,平常心。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.