大資料思維離我們有多遠?

來源:互聯網
上載者:User
關鍵字 大資料 流感 谷歌 我們

  

大資料是一個含糊不明確的詞,用來形容一種大規模現象,這種現象目前已經迅速成為企業家、科學家、政府以及媒體追尋的焦點。

大資料令人矚目

5 年前,谷歌的一個研究團隊在世界上最著名的科學期刊《自然》雜誌上發佈了一項令人矚目的研究成果。 不需要任何醫療檢驗結果,該小組竟能夠追蹤到當時擴散在全美的流感趨勢,而且追蹤速度甚至比美國疾病控制中心(CDC)要快得多。 谷歌的追蹤只比流感的爆發晚了一天,而CDC卻花了一周甚至更多時間, 來匯總一張流感傳播趨勢圖。 顯然,谷歌的速度更快,因為它通過尋找「線上搜索」和搜索「人是否患有流感」二者之間的相關性和規律,成功追蹤到流感傳播的趨勢。

谷歌流感趨勢不僅快速、準確、成本低,而且不需要任何理論支援。 谷歌的工程師們沒心思去開發一套假設理論來追究什麼樣的詞條(「流感症狀」或者「離我最近的藥店」)可能和疾病本身的存在的關鍵字,而是谷歌團隊挑出了5000萬條最靠前的詞條,然後讓搜索法則自行運算,得出的結果。

谷歌流感趨勢成為了商業界、技術界、科學界具有代表意義的成功案例:「大資料」。 接來下記者們就會激動的問道:科學界是否也可以向谷歌學習呢?

正如許多流行語一樣,「大資料」是一個含糊不明確的詞語,經常被那些手裡有什麼要推銷的人信手拈來又隨手拋去。 有人會特別提到資料組的規模,例如Large Hadron Collider的電腦,一年能夠儲存15 千百萬位元組,基本相當於你最喜歡的音樂播放1500年留下的資料。

吸引了眾多公司注意力的「大資料」實際上可以被我們稱作「尋獲的資料」,其發生在網路搜索、信用卡支付、手機感應到最近的電話信號平臺。 谷歌流感趨勢是建立在已經被尋獲的資料上的,就是這種資訊吸引我們來到這裡。 這樣的資料組可以更龐大,甚至大過LHC的資料——Facebook。 值得注意的是,相對於這些龐大的規模,這些資料的收集實際上很便宜。 資料點的隨意拼貼,收集起來用於不同的目的,同時可以即時更新。 現代社會隨著我們的溝通、休閒和商務活動都轉移到網路上,網路則漸漸遷徙至移動網路,生活在以一種10年前難以想像的方式,被記錄和被量化。

大資料的擁護者們得出了以下四個結論,而每一條都存在於「谷歌流感趨勢」的成功案例中:

1. 資料分析產生了驚人的準確結果;

2. 每一個資料點都可以被捕捉,這使得過去的統計抽樣技術顯得十分過時;

3. 資料背後的原因糾結顯得過時,因為資料的相關性已經告訴了我們需要知道的資訊;

4. 科學或資料模型是不需要的。

雖然大資料向科學家、企業家以及政府展現出了那麼多光明前景,然而,這四條理論完全是出於最樂觀最單純的角度,如果我們忽略了一些過去的經驗教訓的話,它也註定會讓我們失望。

大資料為何讓人失望

在那篇關於谷歌流感趨勢預測的文章發表4年以後,新的一期《自然雜誌消息》報導了一則壞消息:在最近的一次流感爆發中谷歌流感趨勢不起作用了。 過去幾年冬天,「谷歌流感趨勢」信心滿滿地提供了一系列迅速準確的流感爆發情況統計資訊。 但是不知從何時開始,這項無理論依據,使得資料基礎豐富的模型漸漸失去它對流感的靈敏嗅覺。 在谷歌的模型資料中顯示將有一場嚴重的流感爆發,但當疾病防治中心最終將慢得不著邊際但依舊準確可靠的資料送達時,這些資料表明谷歌對流感疾病傳播情況的預測誇大了近兩倍。

問題是谷歌不知道,甚至根本無法知道是什麼原因將搜索詞條和流感的傳播聯繫在一起。 谷歌的工程師也並沒有試圖去搞清楚背後的原因,他們只是簡單地尋找資料中的規律。 比起前因後果,他們更在乎資料之間的相關性。 這種情況在大資料分析中相當常見。

搞清楚前因後果很困難(幾乎是不可能的,有人這麼說),但是搞清楚哪些資料是相互關聯的則顯得成本更低更容易。

這就是為什麼Viktor Mayer- Schönberger和Kenneth Cukier會在他們的著作《大資料》中寫道,「在大資料分析中針對因果關係的探究不會被丟棄,但是它正漸漸撤出資料研究的主要基石地位」。

一項沒有理論支援而只著重于資料相關性的分析必然是脆弱且站不住腳的。 如果你不明白表像相關性背後的事情,那麼你就不會知道什麼原因會導致那種相互關聯性的破裂。 谷歌流感趨勢之所以失敗的解釋可能是,2012年12月的新聞裡總是充滿了聳人聽聞的故事,而這些故事激發了那些健康人群的線上搜索的興趣。 另一個可能性解釋就是,谷歌自身的搜索法朝令夕改,當人們輸入資訊時,系統會自動提示診斷資訊。

統計學家們在過去200年裡一直致力於弄清楚是什麼阻擋了我們單純地通過資料來理解這個世界?雖然當前世界中資料的量更大,傳播速度更快,但是我們不能假裝過去那些陷阱都已經安全處理了,因為事實上他們並沒有消失。

1936 年,共和黨人Alfred Landon參加和總統Franklin Delano Roosevelt一起的總統競選,一家備受尊重的知名雜誌《文學文摘》肩負起了大選結果的預測責任。 雜誌社發起了一次郵政民調活動,目的在於將測驗送達 1000萬人民手中,這個數位接近了真實選民數的1/4。 回復如洪水般湧來,讓人難以想像。 雜誌社也很享受這種大範圍的任務。 在8月末期,報導說,「下周,這1000萬名選票中的第一批人將開始經歷候選人的第一輪,進行三次檢驗,核實,五次交叉分類和匯總。 」

在統計了兩個月內收回的數量驚人的240萬張選票後,《文學文摘》雜誌最終發佈其調查結果:蘭登將以55%對41%令人信服地贏得大選,其中有少數投票傾向于協力廠商候選人。

但是競選最終卻呈現出非常不同的結果:羅斯福以61%對37%的絕對優勢大勝蘭登。 讓《文學文摘》雜誌更加鬱悶的是,由民意調查先驅人物George Gallup實施的一個小範圍的調查得出的結果卻和最終投票結果非常接近,成功預測了羅斯福將輕鬆獲勝。 由此可見,Gallup先生理解了《文學文摘》雜誌社所不能理解的一些事:當談到資料時,規模不代表一切。

大體上來說,民意測驗建立在投票人群的取樣基礎上。 這就意味著,民意測驗專家通常需要解決兩件事:取樣錯誤和樣本偏差。

樣品錯誤反應了通過偶然的方式選擇樣本帶來的風險,一個隨機播放的民調樣本並不能反應人們的真實觀點,而民意測驗中體現出來的「誤差幅度」也體現了這種風險。 樣本越大,誤差幅度越小。 一千個受訪者的樣本資料已經足夠成為很多調查目的的樣本,Gallup先生的民意測驗據說採納了3000個受訪者樣本。

如果說3000個受訪者樣本帶來的調查結果是對的,那麼為什麼240萬個樣本卻沒有呈現更正確的結果呢?

答案是,取樣錯誤會常常會伴隨著一個更危險的因素:樣本偏差。 取樣錯誤是因為樣本的隨機播放會導致該選擇樣本無法反映民眾的根本意圖;而樣本偏差則是樣本的選擇未經過篩選,而隨機的選擇。 George Gallup不辭辛勞地尋到找了一個無偏差的樣本,因為他知道一個無偏差的樣本遠遠比一個數量龐大的樣本來得重要。

相反,一直致力於尋找龐大資料樣本的《文學文摘》卻忽略了可能產生的樣本偏差問題。 一方面,它直接將調查表格寄給從汽車登記簿和電話本上獲得的人員名單,而這種方式獲得的樣本,至少在1936年,在體現真實民意方面是比例失調的。 另一方面,為了緩解問題的嚴重性,蘭登的支援者們樂意于將自己的答案寄回。 這兩個偏差因素結合在一起,使得這次《文學文摘》的民意測驗泡湯。

大資料又一次讓《文學文摘》面臨危機。 因為收集到的資料組是那麼淩亂,即使想要搞清楚資料中潛伏著偏差因素也是非常困難。 此外,也因為這些資料實在太龐大,一些資料分析師似乎認為取樣問題根本不值得擔心。

《大資料》一書的合著者,牛津大學網路學院的Viktor Mayer-Schönberger教授告訴我,他所傾向的大資料組的定義是:N=All, 大資料前提下無需取樣,我們已擁有具備所有背景的人群。 當N=All,就說明的確不存在取樣偏差,因為樣本中包含了所有人。

但是N=All是不是對大多數尋獲資料的最佳描述?也許不是。 「一個人能夠擁有所有資料,我對此表示懷疑」,電腦科學家及英國倫敦大學學院資料統計學教授 Patrick Wolfe這麼說道。

Twitter 就是其中的一個例子。 原則上,通過記錄和分析Twitter上的每一條資訊,並通過分析結果來判斷公眾輿情是有可能的。 (事實上,大多數研究人員都在使用那些大資料中的一部分)但是當我們可以看到所有Twitter資訊,消費者從整體來看並不具備全體民眾的代表性。

《數位常識》一書的作者及資料分析師Kaiser Fung提醒我們不能簡單地認為我們已經將所有重要因素考慮在內了,他說,「N=All,很多時候只是一個針對資料的假設,而不是事實。 」

大資料思維尚未形成

面對大資料,我們必須經常提出這樣一個疑問:當面對一大堆雜亂無章的資料資訊時更應該理清頭緒。

看看波士頓當地研發的一款智慧手機APP Street Bump, 該程式通過手機的加速度感應器來探測路面上的凹坑,而不需要城市工人通過街面巡查來發現凹坑。 隨著波士頓市民紛紛下載該款APP並且開著車四處轉悠,他們的手機自動提示市政廳是否需要對城市街道表面進行修復工作。 在這個過程,通過技術解決難題,創造出了資訊量龐大的「資料排放」,而排放出的這些資料正好又以一種不可思議的方式解決問題,這在幾年前是難以想像的。 波士頓市非常驕傲的宣稱,「資料為這座城市提供了即時的資訊監控,而這些資訊又可以用來解決城市問題和規劃城市的長期投資專案。 」

但是Street Bump程式實際產生的是一張路面凹坑的城市分布圖,這些圖更多是系統地分佈于年輕富裕的地區,因為在這些地區會有更多人擁有智慧手機。 Street Bump這款程式給我們提供了一個N=All的情況,也就是說每一部手機探測到的每一個路面凹坑都能被記錄下來。 這和記錄每一個路面凹坑的情況是不一樣的。 微軟的研究院Kate Crawford提出,尋獲資料中包含著系統的偏差,需要非常仔細的思考才能發現和糾正。 大資料組看起來具有全面綜合型,但是N=All常常造成一個相當有迷惑性的錯覺。

極少有案例對於大批量資料的分析最終帶來奇跡的。 劍橋大學的David Spiegelhalter談到了谷歌翻譯軟體,該軟體是在分析數以億計的已翻譯作品中,尋找其中可以複製的翻譯服務。 這就是電腦科學家們稱為「機器學習能力」的一個典型例子,這種「學習能力」可以讓谷歌翻譯軟體呈現讓人難以置信的處理結果,而不需要預先編入任何語法規則。 谷歌翻譯就是接近于無理論支撐的,完全由資料驅動的資料運算黑盒子。 「這是一項了不起的成就」Spiegelhalter說,因為這項成就是建立在對大資料的明智處理的基礎之上。

但是大資料無法解決那些糾纏了統計學家和科學家們幾個世紀的問題:洞察力,情況判斷,以及如何進行正確干預,從而改善系統。

通過大資料得到這樣的答案需要統計學發展的大步邁進。

「現在我們仿佛又回到了西大荒時代,」 倫敦大學學院的Patrick Wolfe說,「聰明上進的人會輾轉反側,會想盡方法利用每一種工具從這些資料中獲取有利的價值,但是我們在現在有點盲目衝動。 」

統計學家們正在竭力研究新的方法來抓住大資料中蘊藏的秘密。 這樣的新方法非常關鍵,但是需立足于過去古老的統計理論基礎之上,這樣新方法才能起作用。

回顧大資料的四個信條,如果我們忽略了主動的錯誤訊息,那麼很容易高估那些讓人覺得不可思議的高準確性。 「資料中的因果關係已經漸漸撤出作為資料研究基礎的基石地位」,如果有人這麼宣稱,那麼沒有關系,前提是我們是在一個穩定的環境中進行資料預測。 但是如果世界正處於一個巨變的環境下(例如正經歷流感的傳播)或者如果我們自身希望對現實世界做些改變,那就不能這麼說了。 「因為N=All, 取樣偏差不重要」,這種想法在大多數案例中都不成立。

大資料時代已經到來,但是大資料思維尚未形成。 現在的挑戰在於解決新的問題,獲得新的答案,但是前提是不要在更大範圍內犯過去的統計錯誤。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.