大資料時代還沒有真正到來

來源:互聯網
上載者:User

導語:在大資料時代,我們只需要知道「什麼」,而不需要知道「為什麼」。 但大資料真的給科學帶來很大的變革嗎?它是否有傳說的那樣神奇呢?還是這僅僅是一場過度宣傳所引出的幻境呢?作者告訴你,大資料時代還沒有真正到來。

如果不考慮目前大資料已取得的成就的話,大資料會給科學帶來徹底的變革嗎?它會説明我們建設一個更加美好的世界嗎?

在回答這個問題之前,讓我們先在時間上退回一點兒。 近期,我被邀在英國海伊小鎮(Hay-on-Wye)舉行的「追尋光之源」(How the Light Gets In)文化藝術節上發言。 文化節的主辦方將我安頓在美麗的大賓頓莊園(Great Brampton House)中。 在那裡,我遇到了其他文化節的被邀演講者,如物理學家George Ellis、Carlo Rovelli、Carlos Frenk、Tara Shears、生物學家Rupert Sheldrake、精神病學家David Nutt, 以及記者Colin Tudg)與David Malone等。 (我希望儘快地與艾理斯和謝爾德雷克進行交流。 )

一天下午,我參加了一場有關大資料的公開辯論,一同參加的還有記者Kenneth Cukier與Angela Saini,以及社會學家Laurie Taylor。 文化節的手冊為我們的這次辯論環節做了這樣的宣傳:「在一個可以收集到浩如星海的資料量的時代,我們會用複雜的真實資料模型來代替簡潔的理論嗎?大資料是否意味著理論的終結?」 這些問題是由《經濟學人》(The Economist)資料編輯Cukier和牛津大學網路治理教授Viktor Mayer-Schonberger共同提出,發表在他們2013年的暢銷書《大資料:一場改變人類生活、 工作與思維的革命》中。

他們在一篇基於這部著作的文章裡寫道:「目前,有遠超過從前的大量資料資訊在我們周圍進行傳播,大資料正是伴隨著著這一現實條件嶄露頭腳的,而且它還被賦予了很多令人意想不到的用途。 儘管網路使資料資訊的收集和分享更加便捷,但大資料並不能等同于互聯網。 相比于互聯網,大資料關注的內容要遠超普通的溝通和交流。 大資料的理念是,通過分析大體量的資料資訊,我們可以理解很多隻依靠少量資料資訊所不能理解的事情。 」

Cukier 和Mayer-Schonberger最有趣的觀點就是,大資料將使我們可以在不必要理解問題的情況下解決問題。 他們在文章中寫道,大資料將會把研究人員關注問題的重點從「因果關係轉移到相互聯繫」上。 前《連線》(WIRED)雜誌編輯Chris Anderson在他2008年的文章「理論的終結」裡也提出過相似的言論,即「這代表著思維方式的改變,從試圖理解這個世界運作方式的深層原因到只是簡單地瞭解事件間的相互聯繫, 然後利用這種聯繫解決問題。 」

如果大資料意味著一種數位技術的話,那麼我熱愛大資料。 數位技術已經改變了記者以及科學家採集、分析和傳播資訊的方式。 舉個例子來看,我可以用電腦在谷歌上搜索到Cukier的資訊,連家門都不用出,還可以瞬間找到其他讀者對他的書評,甚至包括《紐約時報》上性情古怪的評論員Michiko Kakutani出人意料的好評。

不僅如此,Cukier還認為僅僅通過挖掘資料之間的相關性,科學家可以得到很多結論,這也是正確的。 例如,在一個半世紀以前,流行病學研究就表明,在吸煙和癌症之間存在很強的相關性。 但到目前為止,我們依然無法確切地理解吸煙引發癌症的機制。 然而,這種相關性的發現在過去的幾十年裡引發一場又一場的反煙運動。 毫無爭議的是,這些運動比我們在檢測和治療手段方面取得的所有進步都更加明顯有效地減少了癌症的發病率(正如我在最近一篇文章中指出的那樣)。

同時,我也同意Cukier的另一個觀點,即理論可能會阻礙問題的解決。 打個比方來說,你是一名法官,正糾結于已被證明有罪的殺人犯是否會再次作案。 你可能會去諮詢精神病學家或者其他所謂的心理學專家,讓他們基於自己最喜歡的心理學派理論來做一下預測。 但是你還不如使用保險公司用來計算保費的那一套方法,看看跟你這位殺人犯背景相似的罪犯的再次犯罪率就可以了。

然而,基於很多原因,我對Cukier和其他支援者對大資料的熱情依然不敢苟同,甚至感到有些厭煩。 首先,他們的說辭讓我想起混沌學以其後繼者「複雜性理論」的研究者的炒作。 對於混沌和複雜性,我在自己1996年的書《科學的終結》裡將兩者歸併到一起,創造了一個新的名詞「混雜學」。 兩個領域都承諾,如果利用運算速度更快的電腦以及更加複雜的軟體,科學家們可以分析解答那些被古板乏味的還原論者的方法所限制的問題。 某些混雜學家希望能夠發現一個新理論,可以解釋一系列複雜現象的「自組織」系統——甚至是一個「反熵」力。

然而,這樣的發現從未發生過,而且Cukier和Schonberger所設想的那種實際中的的進展同樣也沒有出現。 就拿基因學來說,由於電腦技術和其它技術的進步,人類基因組計畫以低於預算的花費和時間于2003年提前完成。 提取、分析人類和其他生物體基因數據的成本一直以來都在不斷下降。

但令人失望的是,所有這些進展並沒有產生多少醫學上的進步。 在寫作本文時,美國沒有一種基因療法被批准投入市場,而歐洲也僅通過了一項。 人們對尋找調配複雜行為特徵及機體紊亂的特定基因所作出的努力一直未取得成果,對癌症發動的戰爭也同樣從未勝利。

和遺傳學家一樣,神經學家也同樣淹沒在資料裡。 儘管掃描器及其他工具的功能越來越強大,但是神經學家依然無法準確解釋大腦產生思維的原因,或者思維為什麼會經常出現問題。 美國心理健康研究所(National Institute of Mental Health)的主任Thomas Insel最近提議,應該徹底反思我們對精神分裂症、抑鬱症及其它精神疾病的定義與診斷方法。 我們對這些疾病的治療手段依然是原始得可怕。

2008 年的經濟崩潰提供了一個實際檢驗大資料的機會。 華爾街的銀行家們擁有計算速度最快的電腦、最精密複雜的軟體以及金錢可以買到的最大的資料庫,但許多人並沒有預測到那年的經濟崩潰。 所以到目前為止,實踐證明那些認為大資料能使經濟學和其他社會科學變成真正科學(精確且具有預測性)的美好願望依然是一個幻想。

我希望並且堅定地認為,不斷進步的資訊技術在將來的某一天會真正地給醫學、社會科學以及其它領域帶來革命性的進步。 但在那一天到來之前,讓我們還是暫且抑制一下對大資料的盲目炒作與過度宣傳吧。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.