標籤:大資料 雲端運算 vmware hadoop
自從VMware在2013年的全球使用者大會上推出vSphere Big Data Extention(BDE)以來,大資料這匹駿馬越來越受到大家的追捧。當然BDE主要針對是Hadoop的大資料應用,其實大資料不僅僅是Hadoop,即使只算Hadoop也還有不同的發布版本。但是無論Hadoop的哪個版本或者哪個大資料平台,都蜂擁開始追隨雲端運算,就像好馬配好鞍一樣重要,那怎樣的雲端運算平台才是大資料的好鞍呢?
運行環境平台:多租戶、資源供應和管理
在過去幾個月的客戶溝通中,我聽到了運行大資料的多種不同平台,包括Twitter使用的Mesos、Fedex使用的虛擬化和Yahoo使用的Yarn。而不同的雲端運算平台特效能解決大資料應用的不同問題。比如:Yarn的目標是支援Hadoop上的非M-R應用。而Twitter使用的Mesos則可以支援混合的負載,並且會利用作業系統的虛擬化。由於企業的大資料應用情境往往是多樣的,所以需要選擇一種平台適合不同的應用情境,這包括:
部署新的大資料應用極其簡單:可以通過自動化和自助服務來完成;
可以支援多種不同的負載:也就是能運行多種大資料應用,不僅僅限於Map-Reduce,還可支援一些Hadoop生態圈應用、SQL服務和其他跨平台 app;
可靠的安全隔離:如果需要將某些敏感資訊隔離,該平台有能力確保資料集和環境安全;
安全的資源隔離:為了能夠提供足夠的資源來滿足整體SLA要求,可以將吵鬧的鄰居隔離來確保效能;
多版本支援能力:能運行多個不同版本的運行環境,滿足不同使用者、開發人員要求;
企業級的可用性:確保整個系統的強壯性,提供企業等級的可用性。
網路的挑戰
對網路而言,挑戰和機遇並存。今天兩層核心彙總交換網路不能跨機架提供足夠的頻寬。機架內的頻寬應該沒有問題,經常可以達到每秒幾百Gbit,但機架間的頻寬往往十分有限,為此往往需要最佳化流量到本地,也就是資料和計算完全整合的模式。幸運的是,新的網路拓撲,包括CLOS和主幹加分支設計都提供了很好的解決方案。使用這些新型的網路拓撲,可以在整個叢集延時基本恒定的情況下確保足夠的頻寬,無論是機架內還是機架間都不會有頻寬問題。
儲存平台的選擇
隨著儲存技術的不斷髮展,大資料的儲存選擇越來越豐富。當然Hadoop的HDFS處於最核心圈,但其他的儲存平台也可以提供跟Hadoop類似、隨插即用的相容能力,並且提供了某些獨特的價值。幾個主要的儲存選項如下:
傳統的SAN或者NAS:這應該算是支撐大資料應用的最佳儲存選項,因為目前大量的資料中心都可以提供這樣的儲存選項,並且也包括了各種儲存服務,例如:快照、歸檔、複製等;
伺服器內建磁碟構建的軟體定義程式儲存:這方面HDFS是主要的代表,其他的選項包括CEPH、Gluster和MAPR,他們都可以建立檔案系統,滿足大資料的應用;
橫向擴充儲存方案:很多獨具特色的新興公司提供了可以替代HDFS橫向擴充儲存,很好解決了成本和頻寬問題。比如Isilon的橫向擴充儲存方案,提供了3到144個節點的解決方案,可以擴充到15PB、每秒85GB吞吐能力,成為橫向擴充儲存的典型代表。
通過vSphere平台運行大資料
VMware推出的BDE方案也在不斷進步中,為各種不同版本的Hadoop運行提供了強大的支撐。目前BDE已經可以和vCloud Automation Center結合來提供Hadoop叢集的自助建立,藉助vSphere平台讓終端使用者可以快速自助建立應用,大資料的部署難題迎刃而解。大資料平台具有了自動化、自助服務能力,讓大資料再也不是極客的專利,任何大資料應用的開發人員、管理員都只需要專註自己的大資料應用本身,而無需關心底層的架構。
註:本文已經發表在《軟體和資訊服務》2014年8月刊上,如果想瞭解@雲界漫步 對雲端運算的最新觀點,請直接訂閱“中國雲夢”公眾號。也可掃描下面的二維碼,直接訂閱。訂閱”中國雲夢“後,直接回複”20007“閱讀該文。
650) this.width=650;" src="http://s3.51cto.com/wyfs02/M02/47/09/wKiom1P1yAOxyy5qAACGFE8oO9s729.jpg" title="12cm.jpg" alt="wKiom1P1yAOxyy5qAACGFE8oO9s729.jpg" />
本文出自 “中國雲夢” 部落格,請務必保留此出處http://virtualman.blog.51cto.com/200540/1543278