大資料 世界末日的預兆還是大商機?

來源:互聯網
上載者:User

我們都聽說過如下的預測:到2020年,全球以電子形式存儲的資料量將達到35ZB,是2009年全球存儲量的40倍。 而在2010年底,根據IDC的統計,全球資料量已經達到了120萬PB,或1.2ZB。 如果將這些資料都燒錄在DVD上,那麼光把這些DVD碟片堆疊起來就可以從地球壘到月球一個來回(單程約24萬英里)。

對於動不動就憂天的杞人來說,如此龐大的數位可能是不詳的,預示著世界末日的來臨。 而對於樂觀主義者來說,這些數位卻是一座資訊金礦,隨著技術的進步,其中所蘊含的財富會越來越容易被挖掘出來。

進入「大資料」時代,出現了不少新興的資料採礦技術,使得對資料財富的儲存、處理和分析變得比以往任何時候都更便宜、更快速了。 只要有了超級計算環境,那麼大資料技術就能被眾多的企業所用,從而改變很多行業經營業務的的方式。

我們對大資料的定義是:利用一些非傳統的資料篩選工具(包括但不限於Hadoop)對大量的結構化和非結構化資料集合進行挖掘,以便提供有用的資料洞察。

大資料的概念和「雲計算」一樣,也存在著很多的炒作和大量的不確定性。 為此,我們諮詢了多位分析師和研究大資料的專家,讓他們解釋大資料是什麼和不是什麼,以及大資料對於資料採礦的未來究竟意味著什麼等諸多問題。

大資料的發展背景

對大企業而言,大資料的興起部分是因為計算能力可用更低的成本獲得,且各類系統如今已能夠執行多工處理。 其次,記憶體的成本也在直線下降,企業可以在記憶體中處理比以往更多的資料。 還有就是把電腦聚合成伺服器集群越來越簡單。 IDC的資料庫管理分析師Carl Olofson認為,這三大因素的結合便催生了大資料。

「我們不但能夠把這些事情做好,而且能夠以更低廉的成本去做這些事情,」他說。 「過去有些大型超級電腦就曾涉足過繁重的多處理系統,一起構建成緊密聚合的集群,但由於都是專門設計的硬體,所以其成本動輒數十萬甚至數百萬美元。 而現在,我們利用普通的商品化硬體也能獲得同樣的計算能力。 這便説明我們能夠更快、更便宜地處理更多的資料。 」

當然,並非所有擁有龐大資料倉儲的企業都可以說他們正在使用大資料技術。 IDC認為,某項技術要想成為大資料技術,首先必須是成本可承受的,其次是必須滿足IBM所描述的三個「V」判據中的兩個:多樣性(variety)、體量(volume)和速度(velocity)。

多樣性是指,資料應包含結構化的和非結構化的資料。 體量是指聚合在一起供分析的資料量必須是非常龐大的。 而速度則是指資料處理的速度必須很快。 Olofson說,大資料「並非總是說有數百個TB才算得上。 根據實際使用方式,有時候數百個GB的資料也可稱為大資料,這主要要看它的第三個維度,也就是速度或者時間維度。 假如我能在1秒之內分析處理300GB的資料,而通常情況下卻需要花費1個小時的話,那麼這種巨大變化所帶來的結果就會增加極大的價值。 所謂大資料技術,就是至少實現這三個判據中的兩個的可承受得起的一種應用。 」

與開源之關係

「很多人都認為,Hadoop和大資料是同義字。 但這是個錯誤,」Olofson解釋說。 例如Teradata、MySQL和一些「聰明的集群技術」的實施案例都沒有使用Hadoop,但也被認為是大資料的實施案例。

作為大資料的一種應用環境,Hadoop之所以能夠引起人們的注意,是因為它是基於MapReduce環境的,這是超算圈裡很常用的一種簡化環境,主要是由谷歌所創建的一個專案。 Hadoop是和各種Apache專案密切相關的混合實施環境,其中包含了在MapReduce環境下所創建的HBase資料庫。

軟體發展人員一般會用一切利用到Hadoop以及相似的高級技術的手段來回應——而這些技術很多都是在開源社區裡開發的。 「他們創建了一個令人眼花繚亂、變化多端的東西,即所謂的NoSQL資料庫,該資料庫的鍵值多數都已利用了各種技術在處理能力、多樣化,或者資料庫規模上做了優化的,」Olofson說。

開源技術一般是沒有商業支援的,「所以這些東西還必須讓其進化一段時間,逐漸剔除各種缺陷,而這一般需要數年的時間。 這就是說,羽毛未豐的大資料技術目前還無法在普通市場上普及。 」與此同時,IDC預計至少有三家商業廠商會在年底之前對Hadoop提供某種類型的支援服務。 還有其他一些廠商,如Datameer等,也會提供帶有Hadoop元件的分析工具,允許企業開發他們自己的應用。 例如Cloudera和Tableau等已經在其產品中用到了Hadoop。

升級關聯式資料庫

行業觀察家們一般都贊成在升級關係資料庫管理系統(RDBMS)時也要考慮大資料技術。 Olofson說,「大資料技術適用于速度更快、規模更大、成本更低廉的場合。 」比如Teradata就把它的系統做得成本更低廉、具備可擴充性和集群環境。

然而還有些人則不這麼認為。 Gartner的資料管理分析師Marcus Collins說,「通常在使用RDBMS時,都要用到BI工具,但這種處理流程並非真的大資料。 這種流程由來已久。 」

那麼,誰會真正用到大資料分析呢?

一年前,大資料技術的一些主要使用者是大型Web企業,例如Facebook和雅虎,它們需要分析點選流資料。 但是今天,「大資料技術已經超出了Web,是要是有大量資料需要處理的企業都有可能用到它。 」例如銀行、公用事業機構、情報部門等都在搭乘大資料這輛車。

實際上,一些大資料技術已經被一些擁有很前衛技術的企業在使用了,比如受社交媒體推動而需要創建相應Web服務的企業。 它們對於大資料項目目的貢獻非常重要。

而在其他垂直行業中,有些企業正在意識到,它們基於資訊服務的價值定位要比它們先前想像的要大得多,所以大資料技術很快就吸引了這些企業的注意。 再加上硬體和軟體成本的下降,這些企業發現它們已經處在了一場企業大轉型機遇的完美風暴中。

紐約城的TRA公司是專門説明電視廣告主們評測其所投放的電視廣告的效果的,它會把某個家庭通過電視與DVR(數位錄影機)所接收到的廣告與其在零售商店的帳單相比對。 該公司從有線電視公司的DVR以及一些日用品商店的會員卡計畫中搜集資料,來進行這種比對。 TRA的大資料系統所處理的資料量代表著170萬個家庭以秒計的觀看習慣——如此龐大的任務量如果沒有大資料技術幾乎無法完成。 該公司部署了Kognitia的WX2資料庫,該資料庫允許它快速地裝載、描述和分析資料,從DVR上收集細細微性的廣告觀看資訊,fran後與銷售點的詳細資料進行比對,再生成定制報告。

「Kognitia有一個記憶體運行的解決方案,所以我們現有整個資料庫的一半都可以放在記憶體裡,這就是說當我們的客戶需要運行一個查詢時,回應時間是秒級而非小時級或日級的,」TRA的CEO Mark Lieberman說。

該資料庫可以在普通硬體上運行,TRA自己的前端應用就是在.Net Visual Studio上構建的。 「我們還會用到一點點MySQL,而使用者介面則是用DevExpress開發的,」Lieberman說。

在他看來,大資料技術可能會給全美700億美元的電視廣告市場帶來革命性的變化。 傳統的廣告評測方法頂多隻能在全國2萬個樣本家庭中安裝特製的機上盒來分析抽樣資料。 而今天,大資料技術則可以分析來自250萬台DVR和機上盒的實際資料。

Aberdeen集團的分析師Greg Belkin認為,TRA和其他一些公司所使用的大資料工具滿足了大資料的速度、體量和多樣性判據。 「在零售業,大資料給人的印象十分深刻,因為這個行業有非常多的需要分析資料的地方,但是按照傳統手段那是無法想像的,」比如社交媒體網站、DVR設備和日用品商店的會員卡資料等。 「這個行業的資料室如此的龐大和複雜,利用傳統的資料庫手段根本不可能進行分析,所以零售商們正在轉向大資料平臺。 」

同樣的,大資料技術也給弗羅裡達聖彼得斯堡的Catalina市場行銷公司帶來了革命性的變化。 這家公司所擁有的會員客戶資料庫十分龐大,規模有2.5PB,其中包括了1.9億家美國日用品商店多年來的歷史銷售資料。 它的最大的一個資料庫就有令人難以置信的4.25億行資料,公司每天需要在這個資料庫中管理大約6.25億行資料。

通過分析這些資料,Catalina可説明一些主要的消費品製造商和大型連鎖超市預測消費者可能會購買什麼商品,以及誰會對新的商品感興趣等。

「我們是希望把技術帶給資料,而不是把資料帶給技術,」Catalina的執行副總裁兼CIO Eric Williams說。 「一些現有的技術就可以讓比如SAS公司把它們的分析技術用於資料庫。 這就極大地改變了它們的整個業務。 我們先前也在做這些事情,但是由於技術上的嚴重限制,使我們無法實現我們想要實現的目標。 我們只好用自己研發的一些工具,而這些工具能夠實現的東西也是非常有限的。 而大資料技術的出現則徹底改變了我們的整個企業。 」

除了在其專有的系統中用到了一些開源軟體以外,Catalina還在Netezza資料倉儲設備平臺上使用了SAS的分析工具。

大資料正在從根本上改變著美國銀行業做業務的方式。 美國銀行負責大資料與分析的前執行董事Abhishek Mehta在2010年10月的Hadoop World大會上說,「我覺得今天的Hadoop很像20年前的Linux。 我們所有人都看到了Linux在企業軟體市場上的成功。 Hadoop也將會取得同樣的成功。 它的成功只是個時間問題而已。 」

在分析點選流資料和交易資料之外,Hadoop還可以讓美國銀行快速地解決各種業務問題。 「作為銀行來說,我能想到的就是如何消除客戶的欺詐行為,」Mehta說。 「現在,我可以建立一個模型,為每個客戶回溯過去5年間的每一次欺詐事件。 而在此之前,我們只能採取抽樣的辦法,建立一個模型,當發現有某個特例不適合這種模型時,還需要重新建模。 這樣的日子終於結束了。 」

公用事業行業也在剛剛開始瞭解到大資料所帶來的應用及其價值。 美國中西部的一家電力公司利用Hadoop分析來自智慧電錶的資料,這些智慧電錶可以自動完成計費功能,但是該公司還收集輸電線路上任意的電流波動資訊。 「如果收集到這些資訊並且能夠描繪出電流變化圖,那麼你就可以在某個地方的變壓器可能出現故障之前找到它,」Olofson說。 「或者當發生停電事故時,會引起電流的波動,公司就可以探測到波動之處,在使用者打電話求助之前就採取行動。 」

Olofson預測說,在將來的某個時候,電力公司就能利用大資料技術來改善為客戶所提供的服務,並通過電網監控、問題檢測和對電網進行微調等降低運營成本——但是這可能需要對某些正在老化的基礎設施進行重大升級才行。

一些品牌行銷公司也在利用Hadoop在社交媒體上實驗所謂的「情緒分析」。 這些服務提供者利用Hadoop,仔細審查客戶在Twitter上的行為,看看他們對於某個特定產品究竟在說些什麼和想些什麼。

謹慎行事

大資料技術正在迅速發展。 正在使用大資料技術的一些企業自己就擁有非常精通技術的IT專業人員,可以很好地適應大資料技術的進步以及企業的需求。

「假如企業尚未具備部署大資料的條件,也可考慮選擇一家服務提供者——可能是一家雲服務商,或者可以等待大資料技術成熟到了某個時點,有了大量成熟的軟體產品和有支援的服務時再採用,」Olofson說。

毫無疑問,資料採礦領域已經發生了徹底的變化。 但是分析師們認為,大資料技術不會完全取代今天的資料倉儲和資料採礦工具。

「現有的資料採礦實際上因為並沒有非常大的資料,所以需要構建相對複雜的分析模型,」Gartner的Collins說。 「而現在,大資料為企業提供了非常巨量的資料,這就意味著企業不再需要構建複雜的分析模型了。 因此,資料採礦的分析方式將會發生重大變化。 」

Olofson說,「我得觀點是,大資料實際上會擴展資料倉儲的市場容量。 企業會使用諸如MapReduce的技術,無論是Hadoop還是其他一些商業擴展產品,生成一些很有意思的商業智慧資料,而這些資料是之前根本無法獲得的。 然後,為了重複使用這些資料,跟蹤歷史資料,企業將會把這些資料放入資料倉儲,這實際上就是在擴展其資料倉儲的使用。 」

大資料的規模代表著另一個挑戰,Collins說,「其實目前尚未有部署和使用大資料技術的成熟的體系架構模式,所以我們必須邊幹邊學習。 」

不過Collins認為,大資料技術本身的一些風險正在消除,因為已經有不少預包裝的工具可供選擇,但是該項技術仍然非常像一個程式設計介面——這對商業智慧來說可以說是一種倒退。 舉例來說,「Hadoop就是一個技術性相當強的系統,不過在商業智慧的推動下,已經逐漸進入企業和桌面,有著非常有好的使用者介面。 雖然使用Hadoop會在普及上後退一步買單時一些新興的廠商將會説明我們把它推向需要它的使用者社區。 」

「大資料技術還需要出現一些質的飛躍,我們必須把這些工具給到業務單位的使用者手中,但目前還做不到這一點,」Collins補充道。

關於大資料技術的三大誤區

業界對於大資料是什麼和它能夠做什麼還存在著非常多的混淆。 以下就是有關大資料的三大常見的誤區:

1、關係資料庫不可能擴展到非常龐大的體量,因此它也不需要考慮大資料技術。

2、Hadoop或者其擴展,如任何MapReduce環境是大資料的最佳之選,而不必去考慮實際的工作負載或者使用環境。

3、關聯式資料庫管理系統的時代已經結束。 真正關係的開發只能在大資料的部署中獲得。

(責任編輯:呂光)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.