標籤:spark spark互動問答 spark熱點 spark技術 spark教程 雲端運算 大資料
“決勝雲端運算大資料時代”
Spark亞太地區研究院100期公益大講堂 【第18期互動問答分享】
Q1:Master和Driver的是同一個東西嗎?
兩者不是同一個東西,在Standalone模式下Master是用於叢集資源管理和調度的,而Driver適用於指揮Worker上的Executor通過多線的方式處理任務的;
Master位於叢集的管理節點,一般和 NameNode在同一個節點上;
Driver一般都位於客戶機上,客戶機一般都不屬於叢集,但是和叢集在同一個網路環境下,因為客戶機中的Driver要和叢集中的Executor頻繁的互動;
Q2:Standalone和Yarn之間如何選擇
Standalone和Yarn都是用於資源管理的系統,Standalone是專門為Spark打造的資源管理和分配方式,是輕量級的,而Yarn是大資料通用的資源管理架構,不僅可以用於管理Spark頂點資源分派,也可以用於管理實現了Yarn的其它計算平台的資源管理和分配;
如果在生產系統中有多套計算架構 ,例如Spark、MapReduce、Mahout並存,建議使用Yarn或者Mesos進行資源統一的管理和調度;如果只使用Spark的話,建議使用Standalone就足夠了,Yarn比較消耗資源;
Q3:Spark 的HA怎麼處理的?
對於Master的HA,在Standalone模式下,Worker節點自動是HA的,對於Master的HA,一般採用Zookeeper;
Utilizing ZooKeeper to provide leader election and some statestorage, you can launch multiple Masters in your cluster connected to the sameZooKeeper instance. One will be elected “leader” and the others will remain instandby mode. If the current leader dies, another Master will be elected,recover the old Master’s state, and then resume scheduling. The entire recoveryprocess (from the time the the first leader goes down) should take between 1and 2 minutes. Note that this delay only affectsscheduling new applications – applications that were already runningduring Master failover are unaffected;
對於Yarn和Mesos模式,ResourceManager一般也會採用ZooKeeper進行HA;
本文出自 “Spark亞太地區研究院” 部落格,請務必保留此出處http://rockyspark.blog.51cto.com/2229525/1570381
【互動問答分享】第18期決勝雲端運算大資料時代Spark亞太地區研究院公益大講堂