中國IDC圈7月15日報導:在大資料範疇大展拳腳肯定是個正確方向,同時世界各地的初創公司及企業巨頭也在借力大資料和大資料應用創造價值——將大量的資料處理轉化為金錢或競爭優勢。 然而光彩的背後,總是掩飾著一些不可忽視的真相。 簡而言之,不是所有在大資料上的嘗試都得到了應有的回報,而且遠非如此。 同樣這裡也有另一個不容忽視的真相,在IT企業界,大資料「成功」定義的標準非常寬鬆,甚至「我們並沒有完全失敗」這種的觀念都可以歸結于「成功」。
那麼大資料應用成功的標準究竟是什麼? 10gen戰略副總裁Matt Asay帶來了他為成功總結的4個標準:
首先,必須要可以運作
大資料應該為行業創造切實的價值,不止是高科技。 McKinsey在關於大資料未來的報告中指出,大資料在醫療、政府、零售以及製造產業上擁有萬億的潛在價值。 機構對大資料的成功實現需要在一下幾個方面帶來切實的收穫:附加收益、提升客戶滿意度、削減成本等。
其次,必須有本質提高
大資料交付的不應該只是漸進式的商務模式改善,更應該是本質上的突破。 比如就初創企業Foursquare來說,為了發現資料之間的關係,Foursquare使用了機器學習演算法讓系統可以建立「Explore」,一個社交推薦系統可以即時的給使用者推薦有價值的位置資訊, 使用新的業務模式去驅動位置資訊類型業務。 「Explore」依賴大資料技術,同時從多於3000萬個位置資訊中獲取見解。 現在Foursquare已經具備了理解人們之間如何進行互動的能力,並且位置資訊也不只止步平臺,而是真實世界。
再次,必須具備高速度
傳統資料庫技術會拉低大資料的性能,同樣也是非常繁瑣的,因為不管這項技術是否迎合你的需求,專利許可涉及到的企業繁瑣制度遠超出你的想像。 一個成功大資料項目目,使用的工具集和資料庫技術必須同時滿足資料體積及多樣性的雙重需求。 論據是:一個Hadoop集群只需幾個小時就可以搭建,搭建完成後就可以提供快速的資料分析。 事實上大部分的大資料技術都是開源的,這就意味著你可以根據你的需求添加支援和服務,同時許可不再是快速部署的阻礙之一。
最後,必須能以前所不能
在大資料出現之前,類似Gilt Groupe這種「限時搶購」公司根本不可能實現。 限時搶購網站需要日處理上千萬使用者的登陸,並且會造成非常高的伺服器負載峰值——通過高性能、快速擴展的大資料技術讓這種商業模型成為可能。
總結
大資料部署成敗的關鍵不是系統每秒可以處理多少資料量,而是使用大資料後給公司業務帶來了多少價值以及是否讓業務有突破性的提升。 專注業務類型,選擇適合公司業務的工具集才是該重點關注的領域。