據統計,從人類文明開始到2003年,人類共創造了5TB(兆億位元組)的資訊。 現在,同樣的資料量僅需兩天就能夠被創造出來,且速度仍在加快。 如此龐大的資料量使資料分析複雜化,而大資料中的非結構化資料將加深這種複雜度。
這種情況下,我們需要清楚:什麼樣的資料應被保存。 如果從整體性出發,資料獲取和存貯算不上大資料,對海量資料進行分析計算之後的結果才有實際價值。 這亦是大資料的價值所在。
關於大資料數量,業內一種較為激進的觀點認為,「大資料」的叫法存在問題,因為資料只有「大」是沒有用處的。 雖然資料無處不在,但唯有複用性強和可轉化成有用抽象資訊的資料才更有價值。
即使我們的資料搜集、處理能力逐漸增強,仍然要堅持「不是任何資料都重要」這一準則。 對企業來講,具體需遵循兩點,一是堅持資料廣泛性,對內掌握企業內部分析資料,對外摸准使用者喜好和習慣;二是堅持資料關鍵性,從最重要處著手,把握資料複用性,達到最大價值又使成本最優化。
《哈佛商業評論》近期發表了一篇題為「更大的資料會導致更好的決策嗎? 」的文章,這篇文章提出警告,把重點放在量的方面將導致大錯誤。 如今很多企業試圖通過龐大的資料量獲得利益,但只有少數企業真正取得成功,這是過分注重資料「量」帶來的弊端。
大資料分析之資料品質與資料分享
我們知道,要保證分析結果的準確性,必須確保被分析資料真實有效,至少絕大部分資料樣本要有品質保證。 但在大量資料從資料來源彙聚而來的過程中,難免有以次充好的資料混入。
在淘寶網購時,賣家信用等級是買家購買與否的重要參考。 為了提高產品銷售量,刷信用等級成了業內公開的秘密,伴隨著部分賣家弄虛作假、違規提高信用等級的過程,將產生大量失真資料,在欺騙消費者的同時,也會直接影響後期資料分析結果。
其次,中國互聯網產業中,「資料割據」現象較嚴重,即掌握大量核心資料的幾大互聯網巨頭各自為戰,不願分享。 如掌握搜索資料的百度,掌握社交資料的騰訊,掌握消費資料的阿裡巴巴,他們都意識到資料對於未來企業競爭力的重要性,因此不會將自己手中的資料籌碼輕易示人。
仍舊以百度、騰訊、阿裡巴巴為例,按照目前他們在中國互聯網的流行程度,我們可以大體估計同時使用這三種應用的使用者個體占互聯網總使用者數的比率,保守估計,達到50%不成問題。 因此,這三方資料一旦實現共用,將能拼湊出一幅完整的網路資訊圖譜。 反之,「資料割據」造成大資料斷層和片面性,使其利用價值大打折扣。
CMIC認為,在大資料洪流洶湧襲來的當下,資訊的流動才是重中之重,互聯網巨頭們的資料割據思維嚴重阻礙著整個產業的發展。 尤其對於那些擁有大資料分析技術卻無大資料來源的中下游企業來說,面臨「巧婦難為無米之炊」的窘境。
(責任編輯:蒙遺善)