鑒於雲計算對我們大部分人來說還只是一個概念性的夢想,當有人談及他們的大資料的策略是「把所有的資料都存儲在雲服務中」時,您尚不能明確的分辨他們的策略是一種有遠見的方案, 抑或只是簡單的重複了他們在行業會議上所聽到的某些專家的談話。
大資料和雲計算範例之間的重疊實際是如此地廣泛,您可以聲稱您的企業正在利用現有的內部部署的Hadoop、NoSQL、或企業級資料倉儲環境,進行基於雲計算的大資料部署。 但請務必記住,雲計算這一概念在當前更為廣泛的是被理解為「私人雲」的部署,然後才是以公共雲計算、SaaS和多租戶託管環境為補充。
但是,如果您將您的關於「雲計算」的實際定義限制在公眾認購服務的範圍,您便找到了問題的核心了:您必須確定哪些大資料應用程式更適合於公共雲/ SaaS部署,而哪些則更適合於內部部署(如涉及到提前優化的硬體設備或虛擬的伺服器集群 )。
換句話說:您什麼時候可以收集到可擴充性、彈性、高性能、符合成本效益、高可靠性和可管理性的大資料,讓外部服務供應商對其進行管理?如下是幾個明顯的大資料在公共雲進行管理的例子。
企業應用程式已經託管在雲服務中:如果,許多企業(尤其是中小型企業)已經在使用外部服務提供者的基於雲的應用程式,您的大部分的事務的資料來源已經在一個公共雲。 或者如果您的企業與這一雲平臺有著很深的歷史資料淵源,其可能已經進行了大資料量的積累。 在某種程度上,該服務供應商或其合作夥伴提供增值分析服務——如流失分析、行銷優化、或異地備份和客戶資料歸檔——這樣,將大資料託管在該雲服務中,而不是存儲在企業內部的主機,可能更有意義。
高容量的外部資料源,需要相當大的預處理:例如,如果您正在根據社交媒體資料進行客戶情緒監測,您可能不需要利用企業內部的伺服器、存放裝置、頻寬容量資源。 這是一個很明顯的應用程式的例子,您只需要利用公共雲基於大資料服務提供的社交媒體過濾服務。
應用程式需求超出您企業內部設備的大資料處理能力:如果您的企業內部已經有本地的大資料平臺,專門致力於處理某一款應用程式(如專用的Hadoop集群處理高容量非結構化資料來源ETL)。 那麼,當有一款新的應用程式,而企業當前的大資料平臺又不適合,無法滿足新應用程式的需求時,採用公共雲就顯得是恰到好處的解決方案了。 (例如,多管道行銷、社交媒體分析、地理空間分析功能、可查詢歸檔、彈性資料、科學沙箱),而且,按需服務更符合成本效益。 事實上,如果您需要儘快處理PB級規模、流媒體、多結構的大資料,公共雲解決方案可能是唯一可行的選擇。
彈性供應非常大規模而專案短暫的沙箱解析:如果您有一個週期非常短的資料科學專案,需要一個探索性資料集(又名沙箱)而且其數量級要大於一般的規模,那麼公共雲可能是您唯一可行的或經濟的選擇。 您可以利用基於雲的存儲和處理能力,很快地投入該專案。 然後又能夠在該專案結束時,重新規定存儲和處理能力。 我把這稱為「泡沫集」的部署模型,它是專門為雲量身定制的。
如果您已經做了上述任何一點,那麼基於雲的大資料的戰略問題不是出現在您的專案剛剛開始的時候。 隨著基於雲的大資料服務的日趨成熟、性價比、可擴充性、靈活性和可管理性的提高,這個問題將出現在您的專案終止的時候。 到本十年末,隨著越來越多的應用程式和資料轉移到公共雲,建立和運行自己的大資料部署的想法將變得如同今天的設計您自己的伺服器一樣不切實際。
(責任編輯:fumingli)