大資料時代,我誠惶誠恐的擁抱

來源:互聯網
上載者:User

標籤:

 這是最好的時代,也是最壞的時代,讓我們擁抱大資料時代。----題記

        這幾天拜讀了維克托·邁爾的《大資料時代》,感慨頗多,技術引領我們進入資料時代。資料存放區、分析能力的提高大大改變,基於大資料的分析結果已經完完全全改變了我們的生活,如便捷的翻譯、便捷的輸入、新產品的推薦等。大資料已經成為學術界、業界關心的熱切關心的問題,大資料時代的技術模式、管理員模式都尚且未知。本文在梳理大資料的學術研究脈絡的基礎上,分析大資料和雲端運算的關係,大資料內涵及與資訊技術發展的關係,並嘗試對大資料在學術界和業界的發展進行預測。

        實驗室今年申請的自科基金,或多或少與大資料相關,雖然從技術角度刻意削弱了大資料的內涵,但是從評審意見看出大資料作為亮點被指出,說明學術界對大資料的重視。大資料雖然在互連網行業中如火如荼的被討論著,基於筆者的既有知識,大資料原本是描述生物學領域下對於基因序列檢測所擷取的大量的、高速資料,《Nature》在08年發表專刊對大資料進行討論,而Lynch則從高校科研資料管理中提出科學資料是大資料的一種,提出了資料價值的時間耗散現象。由此看書,大資料起於生物科學,而興於互連網。無論是Google,還是亞馬遜,都記錄了大量廣大網民日常行為,構成大量資料。對於大資料應用的文章,<哈佛商業評論>上的文章<Strategy & Competition Big Data: The Management Revolution>為大資料的商業變革進行了深入分析,認為大資料將互連網的個人化商務服務向個人化推送,企業將能更有效刻畫使用者偏好,為客戶管理管理、產品推薦都提供較好的資料支撐。然而,就目前為止,學術上對大資料的研究更多停留在定性分析角度,尚且缺乏實證和計算科學上的研究,大資料的關鍵屬性尚未可知,筆者認為學術界滿意開展對大資料的研究原因有二:首先,滿足大資料的特性的資料集難以擷取,既有定量研究都是基於樣本資料;然而,學術界實驗的計算能力不夠,面向大資料的演算法以及應用更多出於企業摸索階段。《大資料時代》給出的多個案例都證明了大資料的可用性,但是這些案例也都是利用大資料去解釋企業行為及得到的效果,直接基於大資料概念下的應用尚未可見,其根本原因是滿意界定何為大資料。筆者較為同意維克多在《大資料時代》的定義,大資料不在於資料之大,而在資料的總體,其本質在於利用資料總體而非資料樣本去分析資料。大資料帶來三個方面的改變:追求總體資料、追求相關關係而非因果關係、追求混雜行而非精確性。對於大資料特徵的分析,筆者非常同意清華大學陳國青教授提出的4V,規模巨大(Volumn),形式多樣(vary),高速產生(V??),以及潛在價值(Value).大資料提供了從個人化層次以及宏觀層次兩個層面的資料描述。

        筆者認為大資料是對雲端運算的延伸,雲端運算是大資料簡單地應用,前幾天關於雲端運算的多見於雲端儲存以及雲音樂等簡單應用,但云計算為大資料準備好了技術,實現資料統一,資料共用,而大資料是雲端運算的進一步延伸,更加關注資料分析技術和資料應用思維。筆者同意《大資料時代》中認為大資料是資料、技術和思維三國鼎立的時代,而大資料時代催生出新的商業模式,資料擁有者、資料中間商等成為新的商業寵兒,對商業模式的巨大衝擊,利用大資料預測消費者行為都是大資料的商業內涵,企業有機會更為準確的服務消費者。雖然《大資料時代》提出相關關係在大資料的重要性,但將相關關係至於大資料內涵尚需要深入分析,筆者認為因果關係仍然處於資料分析的核心,大資料概莫如是,原因有二:相關關係的本質是因果關係鏈;二,人類的邏輯推理能力是基於因果關係的積累,而非相關關係的發現。當然,書中對於是什麼的觀點無可厚非,問題解決只需要知道是什麼即可,對於為什麼可以因為效率而暫放一邊,但是因此放棄因果關係還是不妥當。

        由《大資料時代》,大資料的發展的關鍵在兩個方面:首先是資料的擷取,如何合理、有效、快捷、有柔性的擷取支援現在以及未來大資料分析的資料集仍然是問題,其中包括,資料擷取的合法性以及資料設計問題,擷取之後的儲存相信在儲存成本下降,非關係型儲存技術的發展將不是問題。然後是大資料的分析問題,有效分析技術仍然是大資料應用的關鍵,雖然google利用檢索詞預測流感爆發是大資料的成功應用,但是通用的分析技術,降低分析硬體需求仍然值得討論,SaaS可能是解決這一問題的可能渠道,但是如何?資料分析仍然是個問題,現有MapReduce,Hadoop等系統本質上是治標不治本,大資料片段化的過程中必然資料大量資料關聯。筆者認為大資料分析技術的關鍵在於如何將現有分析技術應用在大資料集,使之能夠處理大資料。而《大資料時代》中提出的簡單演算法在大資料集下顯示出比複雜演算法較優的效果的現象,筆者更多認為是複雜演算法在現有硬體條件下無法有效進行計算,資訊技術的發展必然要解決這個問題。

        最後,推薦《黑鏡》給大家去看,這裡有對於大資料道德的深入思考,不再贅述。

大資料時代,我誠惶誠恐的擁抱

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.