在大資料的世界裡,雲計算扮演著很重要的角色,特別是在那些短期工作和應用程式當中,因為這些領域的很多資料已經在雲計算中。
對於大部分的人來說,雲計算是一個很大、模糊且有點遙不可及的夢。 一些人在看待大資料戰略時,會將其等同于將大資料放入雲端,但是這樣的說法是真的有遠見還是只是簡單的重複行業會議中的觀點。
實際上,大資料和雲計算有很大的重疊和交集,所以企業很可以很明確的宣稱自己正在利用內部部署的Hadoop、NoSQL或者是企業資料倉儲環境進行基於雲計算的大資料戰略。 同時還要提醒大家:雲計算被廣泛的認為是包括除了「私有部署」以外或者是代替公有雲、SaaS和多租戶託管環境。
但如果你將雲計算的定義限制為公共訂購服務,你就會遇到一個核心問題:需要確定哪些大資料應用更為適合公有雲/SaaS環境或者是傳統的內部部署。 換句話說:通過外部的服務提供者的管理,何時才能提高大資料的可擴充性、彈性、效能以及成本效益、可靠性。 以下是四個關於大資料移轉至雲端的用例,説明辨別你的大資料是否已經處於雲端了。
企業應用已託管在雲中對於很多企業來說,特別是中小企業來說,如果你用的是外部服務商提供的基於雲計算的應用程式,實際上企業中的大部分交易原始程式碼已經在公有雲當中。 如果你有很多的歷史資料都在雲計算平臺中,也許已經累計構成大資料了。
此時,利用外部服務提供者或者是其合作夥伴提供的資料分析增值服務比完全依靠企業內部的資源更有效,服務包括客戶流失分析,行銷優化,或異地的客戶資料的備份和歸檔服務。
高容量的外部資料源則需要預處理
舉個例子,若是你正在通過收集社交網路來進行客戶的情緒監控,也許你的企業內部沒有伺服器、存儲和頻寬能夠全面的監測這些資料,但是通過基於公有雲的大資料服務,你就能夠很簡單的利用社交媒體過濾服務來對客戶的情緒變化進行監控。
企業內部無法承受的戰略應用
若是企業內部已有一個基於應用程式的大資料平臺,如專用的Hadoop集群的高容量ETL非結構化資料來源,通過公有雲來解決新的應用程式是比較可行的,例如,多管道行銷,社交媒體分析、地理空間分析、可查詢歸檔和彈性資料等。 對於不適合當前平臺的應用程式來說,一個按需收費的服務的成本效益是最好的。
事實上,企業如果想要儘快處理PB級規模的多種結構的流媒體的大資料,公有雲是唯一一個可行的解決方案。
分析沙箱的彈性配置
若是你需要進行資料探索的是一個生命週期較短的專案,訂單量又是數量級的時候,雲計算可能是唯一可行的或經濟實惠的選擇。 你可以快速的為專案配置基於雲的存儲和計算能力,當專案結束的時候,企業可以快速的取消這些配置。 這種模式可以稱之為「泡沫集市」部署模型,可以說是為雲量身定制。
只要你遇到以上任何一種情況,基於雲計算的大資料戰略問題也就會隨之而來,隨著雲計算和大資料服務的成熟,價格,性能,可擴充性,靈活性和可管理性都將會得到改善,但這個問題仍然還是會存在,只不過階段不同了。 再過幾年,越來越多的應用和資料移轉到公有雲之後,利用你現在的伺服器來運行你的大資料應用似乎也不太實際了。 所以企業要懂自己的大資料戰略,同時還要搞清楚企業資料是不是已經在雲端了,並及時做好戰略的調整。
(責任編輯:fumingli)