近期,有人給「大資料熱」潑了盆冷水,暗示當前被人們稱為「大資料」的東西可能並不靠譜。 發佈相關言論的人,還真不是隔岸觀火的「假行家」,他是美國知名HTTP://www.aliyun.com/zixun/aggregation/14294.html">的大資料分析公司Ayasdi的聯合創始人兼CEO Gurjeet Singht。
他指出,從查詢開始分析資料本身就是一個死胡同。 研究人員目前只是從收集到的資料中提取1%進行分析和提取見解,而這1%被分析的資料卻能支配企業的革新和形成見解,並被人們稱為「大資料」。
Gurjeet Singht的這番言論,不得不讓我們反思,當前的「大資料熱」和在這股熱浪中不斷被各類機構高估的「大資料分析」是不是有點「虛火」太旺。
Gurjeet Singht的論點並非沒有依據。 數位宇宙的規模在近兩年內確實出現了翻倍增長的情況,面對這種爆炸式的增長,科技發展的速度與資料宇宙的發展速度其實並不匹配。 根據IDC最近的報告,當前人們每天可以收集的資料約1qB,數位宇宙的規模已經達到了2.8ZB的資料量。 IDC預計,到2020年數位宇宙的規模將高達40ZB。 移動技術、傳感技術的發展,讓人們採集資料的能力不斷增強,但識別資料的技術發展速度卻沒那麼樂觀。 比如,在當前資料宇宙中很多有價值的資料,都是基於文檔的未被標記的非結構化資料,人們對這類資料的識別、處理技術的研究剛剛起步。 但市場中所謂成熟的大資料分析方法,卻普遍是基於有效資料標識來採集用於分析的資料。 根據這種方法,有些資料因為無法識別所以不能被標記,因而不能被視為有效資料,在用於分析前,它們就會被拋棄。 這一問題導致大量有價值的資料就這樣丟失了,完全沒有被利用。
大資料對企業的價值,在於通過分析提取見解。 如果這種「見解」僅來源於對低於5%的有價值資料的分析,分析方法只是某些「科學家」的預判,企業還要依據這樣的見解「做生意」,這樣的「大資料」難道不是災難嗎?
美國的私人資料分析服務提供者的估值已被推高到數十億美元。 幾天前,美國旅遊行業也刮起 「怪風」,一些完全不知道大資料為何物的初創企業,正在憑大資料概念圈錢,而且效果還不錯。 大資料剛剛蹣跚學步,就有人判斷其未來一定能成為「總統」,並已經為他拉起了選票。 在資料分析技術還極不成熟的今天,資本市場對大資料相關企業的過度狂熱,無疑是個危險的信號。