雲服務正在大資料應用中發揮重要作用,尤其是對於那些短期任務,或是已將大量資料存儲在雲上的應用而言。
雲服務對於每個人都具有吸引力。 當有人對你說,他們的大資料策略是「把所有的資料都存儲在雲端」 時,你根本無法判斷這些人是有遠見的人,還是在簡單地重複著專家在行業會議上對他們的建議。
毫無疑問,目前大資料和雲範例之間存在著巨大的重合之處。 這些交集是如此的廣泛,以致于你能夠名正言順地宣稱自己正在利用現有的本地Hadoop、NoSQL或企業資料倉儲環境,處理基於雲的大資料。 請記住,雲服務被普遍解讀為除了公有雲、SaaS(軟體即服務)和多租戶託管環境外,還包括「私有化的」部署。
如果你將「雲」的定義局限為公有定購服務,那麼你將會觸及問題的核心:這就是要識別出哪些大資料應用比本地部署(例如涉及到預優化硬體工具,或是虛擬化伺服器集群的本地部署)更適合公有雲或SaaS部署模式。
從另一個角度來說,在外部服務商為你提供管理服務的情況下,你何時能夠提升大資料的擴充性、靈活性、性能、費效比、可靠性和可管理性? 以下是幾個大資料存儲在公有雲服務上的典型應用案例。
已經被託管在雲上的企業應用:如果你像許多機構一樣,尤其是像中小企業那樣,使用外部服務商提供的基於雲的應用,那麼你的許多源交易資料都已經位於公有雲之上。 如果你將大量的歷史資料存儲在上述雲平臺上,那麼它們可能已經積累至大資料級別。 對於服務商或是其合作夥伴推出的增值分析服務(例如客戶流失分析、行銷優化或是異地備份和客戶資料歸檔等服務)而言,將資料存儲在雲上可能比將資料存儲在本地更具意義。
需要大量預處理的海量外部資料源:如果你正在利用社交媒體資料回饋進行客戶情感監控,那麼本地的伺服器、存儲或是頻寬將無法滿足相關分析工作的需求。 這是一個典型的應用案例。 在這個案例中,你應該利用基於公有雲的大資料服務所提供的社交媒體過濾服務。
除了本地大資料功能之外的戰術性應用:如果你已經專門為某一應用部署了一個本地大資料平臺,例如專門用於非結構化資料來源中的海量ETL(抽取/轉換/載入)操作的Hadoop集群, 那麼使用公有雲可以更好地處理新的應用(例如多管道行銷、社交媒體分析、地理空間分析、具有查詢功能的存檔、彈性資料科研沙箱),因為現有平臺並不適合處理這些應用,而公有雲的按需服務性能更加強大,也更具費效比。 實際上,如果你需要盡可能快地擁有可處理拍位元組級、流式、多結構化大資料的能力,那麼公有雲解決方案可能是唯一可行的選項。
龐大短期分析沙箱的彈性配置:如果你有一個需要探索型資料集市(即沙箱)的短期資料科研專案,並且這個沙箱的規模遠遠超過了正常的規模,那麼雲可能將是你唯一可行、或是能夠負擔得起的選項。 在專案啟動期間,你可以迅速獲得基於雲的存儲空間和處理能力。 而在專案結束之後,可以迅速釋放這些存儲空間和處理能力。 我將這種模式稱為「氣泡集市」部署模式,這種模式特別適合雲服務。
如果你已經做了其中的任何一項,那麼基於雲的大資料所面臨的策略性問題就並不是從哪裡開始了。 隨著基於雲的大資料服務的成熟,以及性價比、擴充性、靈活性和可管理性的不斷提升,問題將成為你將在哪裡停止下來。 到2020年,伴隨越來越多的應用和資料移轉至公有雲,關於創建和運營專屬自己的大資料部署的想法可能會和現階段設計屬於自己的伺服器那樣不切實際。
(責任編輯:蒙遺善)