我們都聽說過如下的預測:到2020年,全球以電子形式存儲的資料量將達到35ZB,是2009年全球存儲量的40倍。 而在2010年底,根據IDC的統計,全球資料量已經達到了120萬PB,或1.2ZB。 如果將這些資料都燒錄在DVD上,那麼光把這些DVD碟片堆疊起來就可以從地球壘到月球一個來回(單程約24萬英里)。
對於動不動就憂天的杞人來說,如此龐大的數位可能是不詳的,預示著世界末日的來臨。 而對於樂觀主義者來說,這些數位卻是一座資訊金礦,隨著技術的進步,其中所蘊含的財富會越來越容易被挖掘出來。
進入「大資料」時代,出現了不少新興的資料採礦技術,使得對資料財富的儲存、處理和分析變得比以往任何時候都更便宜、更快速了。 只要有了超級計算環境,那麼大資料技術就能被眾多的企業所用,從而改變很多行業經營業務的的方式。
我們對大資料技術的定義是:利用一些非傳統的資料篩選工具(包括但不限於Hadoop)對大量的結構化和非結構化資料集合進行挖掘,以便提供有用的資料洞察。
大資料技術的概念和「雲計算」一樣,也存在著很多的炒作和大量的不確定性。 為此,我們諮詢了多位分析師和研究大資料的專家,讓他們解釋大資料技術是什麼和不是什麼,以及大資料技術對於資料採礦的未來究竟意味著什麼等諸多問題。
大資料技術的發展背景
對大企業而言,大資料的興起部分是因為計算能力可用更低的成本獲得,且各類系統如今已能夠執行多工處理。 其次,記憶體的成本也在直線下降,企業可以在記憶體中處理比以往更多的資料。 還有就是把電腦聚合成伺服器集群越來越簡單。 IDC的資料庫管理分析師Carl Olofson認為,這三大因素的結合便催生了大資料。
「我們不但能夠把這些事情做好,而且能夠以更低廉的成本去做這些事情,」他說。 「過去有些大型超級電腦就曾涉足過繁重的多處理系統,一起構建成緊密聚合的集群,但由於都是專門設計的硬體,所以其成本動輒數十萬甚至數百萬美元。 而現在,我們利用普通的商品化硬體也能獲得同樣的計算能力。 這便説明我們能夠更快、更便宜地處理更多的資料。 」
當然,並非所有擁有龐大資料倉儲的企業都可以說他們正在使用大資料技術。 IDC認為,某項技術要想成為大資料技術,首先必須是成本可承受的,其次是必須滿足IBM所描述的三個「V」判據中的兩個:多樣性(variety)、體量(volume)和速度(velocity)。
多樣性是指,資料應包含結構化的和非結構化的資料。 體量是指聚合在一起供分析的資料量必須是非常龐大的。 而速度則是指資料處理的速度必須很快。 Olofson說,大資料「並非總是說有數百個TB才算得上。 根據實際使用方式,有時候數百個GB的資料也可稱為大資料,這主要要看它的第三個維度,也就是速度或者時間維度。 假如我能在1秒之內分析處理300GB的資料,而通常情況下卻需要花費1個小時的話,那麼這種巨大變化所帶來的結果就會增加極大的價值。 所謂大資料技術,就是至少實現這三個判據中的兩個的可承受得起的一種應用。 」
(責任編輯:呂光)