大資料也許不是你想像的那麼智慧?

來源:互聯網
上載者:User

大家也許還沒意識到,但實際上資料的重要意義已經不局限于電腦系統當中的關鍵性要素——資料已經在各個領域開枝散葉、成為維繫整個世界的樞紐。

引用來自摩根大通公司一位常務董事的評價,資料已經成為「企業的命脈」。 他是在最近剛剛舉辦的一場重要技術會議(以資料為主要討論物件)上拋出這番言論的,本次會議還深入解析了各機構走向「資料驅動」之路的途徑。

《哈佛商業評論》雜誌稱「資料科學家」將成為「二十一世紀最性感的職位」。 在這篇刊發的文章中,作者詳細描述了Netflix如何採集每位使用者所進行的每一項操作,並將我們「從快樂的使用者轉化成無意識的傀儡」。 文章還告誡大家稱「海量資料分析與處理已經成為現實,且有愈演愈烈之勢。 」

不顧後果、毫無章法地使用「大資料」概念

前面提到的所有文章都在極力鼓吹大資料的優勢與威能,並希望借此實現大資料的宣傳、行銷或者盈利目標——毫無疑問,大資料已經成為今年最耀眼的技術發展趨勢。 如果讀者朋友自己是技術人士,應該會明顯感覺到如今這個時代開口不談大資料簡直沒臉跟同仁打招呼。 但與此同時,大家似乎對這個話題都說不出個所以然,因為沒幾個人能真正說清大資料是個什麼玩意兒。 呃,其實這一結論也有點武斷。 嚴格來說,目前的大資料概念主要從屬於幾股以產品為載體的派別:

• 由於業界大佬谷歌、Facebook及Amazon對於資訊的極度渴求,處於爆炸式增長中的新資料被批量收集起來(包括存儲、處理以及分析)。

• 資訊的多元化特性愈發顯著,這一狀況源自網上購物、Facebook狀態更新、tweet內容、圖片共用以及各類登記資料等等。

• 整個業界都在渴求一種能夠將如此龐大資料儘快、盡可能高效打理好的方案。

然而大資料概念似乎正被不顧後果、毫無章法地過度使用;即使偶爾使用方法對路,其適用範圍也並不像技術人員想像的那麼寬泛。

前面提到的三種派別都是真實存在的。 谷歌公司正在極力攫取來自各類資源的每一位元組資訊內容,試圖為盡可能多的使用者創建與其使用習慣相匹配的設定檔。 (這種思路無疑是把雙刃劍:就以Google Now為例,它會以‘在客戶發現需求前推薦合適的產品’為藉口大肆進行廣告宣傳——但在這裡我們不打算討論道德層面的問題。 )

很顯然,這種源自各類源頭的資料資訊不會以規則的形式存在。 因此谷歌公司可能需要一套獨特的處理工具集來打理這些資料,至少這類方案不同于過去存在的任何資料數量及類型。

目前聲名最盛的兩大工具分別為Hadoop——一款非關聯式分散式資料庫框架——與MapReduce——一套由谷歌公司開發的演算法集合,旨在將來自各類資源的多元化資料整理為獨立的一套鍵/值對。 通過Hadoop與MapReduce,谷歌能夠將海量資料集合拆分為可以管理的資料塊,並通過伺服器群獨立處理這些非狀態化資料塊。

這一切真能成為現實嗎? 在無需複雜的預處理過程的前提下將原本無法輕鬆、快速管理的大資料集合通過關系型資料庫打理好? 有可能。

谷歌公司的特殊需求

MapReduce真如傳聞中那樣有能力承載資料合併技術之王、遊戲規則改寫者的桂冠嗎? 答案幾乎是否定的:谷歌公司此項專利技術的合法性一直備受質疑,而且不少現有產品都能夠以更簡單的方式輕鬆實現相同的功能。 目前谷歌在網路上公佈的基本MapReduce實例只有幾十行JAVA代碼,從這些內容上看我們找不到任何革命性的理念及突破。

但我們姑且假設谷歌公司需要這些工具來滿足自身非常獨特的需求,換言之,我們不妨假定各類現有工具及資料庫框架還不足以實現谷歌的技術雄心。 在這種情況下,大資料顯然並不能成為適用于所有機構、適合處理所有海量電腦應用的方案。 儘管大資料支援者們始終堅信這一點,但我們對於此類新型資料庫及軟體模型尚無法寄託如此級別的厚望。

大量資料,甚至是海量資料的不斷湧現也早已算不上什麼新鮮事。 在投資銀行領域,高頻交易系統始終需要以微秒為時間單位處理眾多交易事務;市場資料引擎多年來也一直需要以秒為單位存儲並處理成千上萬價格標記。

再來說說我的朋友Ken Caldeira,他在斯坦福大學卡內基研究所裡埋頭鼓搗氣象科學。 正如預料,我發現他經常需要與「PB級資料」打交道。 我另一位曾在華爾街接受過資料分析工程培訓的物理學家同事則在2000年之後花了長時間搞基因組研究,根據他的說法整個研究過程中存在「資料驚人的資料需要進行分析」。

在大資料的時代,前所未有的龐大資料集經常被引用、幾乎每個人都或多或少與之有所接觸,而上一代工具面對如此規模的工作量顯得非常無力。

但在大多數情況下,Caldeira和我的資料分析專家朋友還在使用...... Python腳本與C++來解決問題。 沒錯,確實有不少大資料使用者目前在使用大規模並行架構、集群及雲計算實現處理工作,但這種做法已經出現了十年以上;而且如我的朋友所指出,「人們常常分不清自己在雲中做出的成果跟他人有何區別, 這是因為雲環境下的資料無法明確區分出不同開發者做出的貢獻。 」利用分散式資料庫來贏得更快的速度與更安全的冗余機制對於每位使用者都非常重要,至少能夠説明我們顯著壓縮現有硬體成本。

你能想像自己信賴的銀行在tweet及Facebook博文中計算帳戶資訊嗎?

另一種引發大資料演算法變革的因素在於不同類型資料的爆炸式增長。 正如前文所述,谷歌與Facebook等公司需要為設定檔或來自各類資源的統計資訊進行創建及處理工作,更令人頭痛的是這些資訊的格式同樣多種多樣。 當然,並不是每位使用者都面臨著這樣的問題。 當人們討論這些新型、淩亂繁雜的非結構化資料時,他們大多數情況下指的都是來自社交網路及博客平臺的資訊。

銀行領域所使用的核心系統(在處理交易事務方面,老式關係類資料庫仍然佔據著絕對的統治地位)真的需要接觸到社交媒體資料嗎? 庫存系統、數位目錄或者癌症研究人士所使用的系統呢? 我們還需要考慮,如果資料出於某種原因而無法通過分散式、無狀態的方式處理,大資料技術又能起什麼作用?

高度非結構化資料仍然佔據著專門但規模相對有限的利基市場,但其表現與地位則相當搶眼。 與當下常見的系統不同,大資料技術不需要對來自各類資源的合併資料提前進行解析、翻譯或者預處理。

如果某家公司在多年之後突然認為自己需要大資料技術來讓業務更進一步,則意味著他們一定在業務領域迎來了根本性轉變、開始走向與之前的經營方式完全不同的發展道路——很顯然,即使是在極端情況下上述假設也很難成立。

讓你的系統具備可擴充性,一夜之間大資料就可能來到身邊

大資料這個概念常常被過度濫用,要麼就是被完全錯誤理解。 對於某個特定應用程式中資料量的增加而言,無論這種增長幅度有多麼迅猛,我們都不能就將其稱之為大資料應用。 我們需要做的是對這套系統進行擴容,而這個過程根本沒那麼複雜——只需做一些設計調整,如果系統本身就預留了擴展設計,連調整都不需要。

以電腦為基礎的文本分析工作則始終處於發展之中。 記得二十世紀七十年代就有學者在對莎士比亞的戲劇作品進行分析,希望找出其特定單詞出現的頻率與模式——當時我就被深深吸引住了。 如果說如今的大資料有什麼新突破的話,可能就是將這項工作擴展到範圍更大、數量更巨的文本內容中來。

如果這些文本在20年前就已經出現,而我們要在當時對其規律與模式進行摸索,那簡直是不可能完成的任務。 科學家們紛紛搖頭甩手,表示「我們已經有技術基礎了,只是無法真正實現。 」即使是在仍不了解這些分析工作細節的今天,我發現研究人士仍然很難通過完全不同于傳統排序及搜索思路的方式構建代碼演算法。 可以說大資料在這方面並沒有帶來什麼開創性成就。

如果DVD光碟租賃公司能夠在上世紀九十年代抓住這類細節資訊,他們可能會很樂於積極捕捉並加以分析。 這種令人不安的趨勢引出一個問題:電影租賃公司在擁有這種能力後會如何加以利用、怎樣將其轉化為利潤或者給企業之間的合作帶來哪些影響? 這些資料就像拼圖中的圖塊,能夠解開這道謎題將使得企業擁有絕對的主動權。

「資料」並沒有在一夜之間就成為萬惡之源,最多隻能說是一躍成為新時代的另一種重要資源。 我們既不應該過分迷信大資料、將現有非大資料技術馬上棄之不顧,也不應該將一切問題都推在大資料身上。 很顯然,傳統技術不會瞬間「過時」、新技術也無法一手遮天。

(責任編輯:施柏鵬)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.