摘要: 也許你並不需要大資料 2012年大資料的發展如火如荼,然而本文的作者,資料分析公司SiSense副總裁Bruno Aziza卻認為並不是每個人都需要大資料。 大資料無處不在。 從社交媒體初創公司到
也許你並不需要大資料
2012年「大資料」的發展如火如荼,然而本文的作者,資料分析公司SiSense副總裁Bruno Aziza卻認為並不是每個人都需要大資料。
「大資料」無處不在。 從社交媒體初創公司到紐約的中央公園,每個公司似乎都在部署大資料分析。
著名資料分析公司Gartner的資料似乎也在證明這一點:最近的一份報告顯示,大資料將帶動2012年全球280億美元的IT支出,到2016年這個數位將超過2300億美元。 2300億美元幾乎是葡萄牙全年的國內生產總值。
但是,你需要花大價錢來部署大資料技術解決方案。 大多數公司都沒有這麼多IT預算,也請不起資料科學家或者資料分析團隊。
如果那些提供大資料服務的公司想為各種規模的企業提供服務,那麼有幾個問題必須認識到並加以解決。
大資料太貴了!
您可能聽說過那些使用大資料的輝煌案例:Facebook每天要存儲大約100TB的使用者資料; NASA每天要處理約24TB的資料。 這些數位確實令人印象深刻。
那麼處理這些資料所需的成本是多少呢?按照亞馬遜Redshift的定價,NASA需要為45天資料存儲服務支付超過100萬美元。
根據最近的一項調查,大多數企業的CIO稱他們的預算支付不起大資料部署的成本。 資料存儲和處理的成本實在太高,我們需要尋求其他的解決方案,讓規模較小的公司不被「大資料」拒之門外。
大資料的關鍵不是「大」
目前全球最大的科技公司都需要和PB級規模的資料打交道。 然而,SAP的研究表明,95%的企業通常只需要使用0.5TB到40TB的資料。
Facebook和NASA的例子是個例外,而不是常態。 事實是,處理資料並不是大公司的專利。 如果你研究一下美國公司的規模,你會發現有超過50000家公司只有20至500名員工,其中大部分都有解決資料問題的需求。 所以大資料超市最大的需求並不是來自那些《財富》50強的大企業,而是來自《財富》500000強。 為什麼我們只關注那些少數的例外,而忽視了那些大多數有資料處理需求,但既不是《財富》50強也沒有PB級規模資料的公司?
有時候我在想,如果我們改變了大資料的定義會發生什麼?通常人們用3V(velocity,volume,variety)來描述大資料,我們不妨換一個說法:「大資料是一種主觀狀態, 它描述的是一個公司的基礎架構無法滿足其資料處理需求時的情形。 」
這個定義可能沒有那麼光鮮,但它肯定會更接近今天的現實。