大資料的深意

來源:互聯網
上載者:User

文/劉江

Random forests, naïve Bayesian estimators, HTTP://www.aliyun.com/zixun/aggregation/14172.html">RESTful services, gossip
protocols, eventual consistency, data sharding, anti-entropy, Byzantine
quorum, erasure coding, vector clocks ...

你能猜出上面這一串密集的術語出自哪裡嗎?

這是Amazon CEO Bezos 2010 年給股東的信頭一句。 「走進某個Amazon的會議室,你可能會突然以為自己誤入了一個電腦科學講座。 」這封信後面幾乎全部都在談技術,其中的重點就是大資料的處理。 資料已經成為新時代的石油,大資料的處理能力,的確已經成為企業的競爭焦點。

我在2011年8月卷首語中,曾整理過大資料(Big Data)概念興起的脈絡,最早是2005 年Tim O’Reilly 提出Web 2.0 概念的那篇博客。 然而,在撰寫本期「名人堂」Jim Gray 文章時,我閱讀了大量資料,發現事情遠不是那麼簡單。

早在1940 年代,控制論之父Wiener 已開始討論這樣一種機器,它能收集足夠多的各種類型資訊,生產的、市場的、人的心理的,然後據此確定事情發生的概率。 而那時,電腦都還沒有誕生呢。

Jim Gray 回憶,他1969 年之前在伯克利攻讀博士時,就已與一些同事將電腦科學應用於社會問題研究。 這也是他後來一直研究的主題之一。 他在微軟研究院領導的專案名就叫eScience,很多工作是將微軟的各種計算資源開放給其他學科的學術界同行解決那些資料密集型的課題,取得了豐碩的成果。

2007 年他掛帆仙去之前幾個月,在美國國家科學研究委員會發表演講,指出科學研究已經在幾千年前的憑經驗、幾百年前的靠理論模型、幾十年前的計算模擬之後,進入了第四階段——資料探索。 在此階段,科學家依靠各種儀器、感應器獲取資料,或者通過模擬生成資料,然後用軟體進行處理,將得到的資訊/知識存儲在電腦中,再由科學家借助各種統計和資料工具進行分析和視覺化。 這基本是大資料處理的經典義。

這幾天我在翻看2007 年的暢銷書《Super Crunchers》一本對資料分析重要性極好的通俗宣傳手冊。 書中豐富的例子會讓你瞭解到大資料的無所不在:預測紅酒品質、選棒球隊員、取書名、法官斷案、找物件......

大資料分析往往比專家或者你自己更靠譜。 印象最深的案例是循證醫學,說白了就是傳統經驗積累下來的醫療診斷和治療中的很多做法和程式,都沒有資料支撐,存在極大風險,應該用盡量多的統計資料進行論證。

在部分醫院實驗,一年多時間就挽救了十萬人的生命。

這也讓我想起年前英年早逝的張孝祥老師,他在去世之前所做的常規體檢根本沒有查出問題,感覺不適時自己沒有重視,錯過了及時的治療。 如果我們能夠開發出相應技術,用微小的感應器監測每個人重要的器官,不斷收集資料,及時進行分析,對危險提前預警,這種悲劇應該是可以避免的。

Jim Gray 曾預測,到2047 年有關現實事物、人、建築、流程的所有資訊都將上網。 讓我們共同努力,儘早實現。

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.