Spark學習筆記1：Application，Driver，Job，Task，Stage理解

最後更新：2016-07-24 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：

看了spark的原始論文和相關資料，對spark中的一些經常用到的術語學習了一下，記錄下。

1，Application

application（應用）其實就是用spark-submit提交到spark的程式。比方說spark examples中的計算pi的SparkPi。一個application通常包含三部分：從資料來源（比方說HDFS）取資料形成RDD，通過RDD的transformation和action進行計算，將結果輸出到console或者外部儲存（比方說collect收集輸出到console）。

2，Driver

Spark中的driver其實感覺和yarn中Application Master的功能相類似。主要完成任務的調度以及和executor和cluster manager進行協調。有client和cluster聯眾模式。client模式driver在任務提交的機器上運行，而cluster模式會隨機播放機器中的一台機器啟動driver。從spark官網的一張圖可以大致瞭解driver的功能。

3，Job

Spark中的Job和MR中Job不一樣不一樣。MR中Job主要是Map或者Reduce Job。而Spark的Job其實很好區別，一個action運算元就算一個Job，比方說count，first等。

4, Task

Task是Spark中最新的執行單元。RDD一般是帶有partitions的，每個partition的在一個executor上的執行可以任務是一個Task。

5, Stage

Stage概念是spark中專屬的。一般而言一個Job會切換成一定數量的stage。各個stage之間按照順序執行。至於stage是怎麼切分的，首選得知道spark論文中提到的narrow dependency(窄依賴)和wide dependency（寬依賴）的概念。其實很好區分，看一下父RDD中的資料是否進入不同的子RDD，如果只進入到一個子RDD則是窄依賴，否則就是寬依賴。寬依賴和窄依賴的邊界就是stage的劃分點。從spark的論文中兩張圖，可以清楚的理解寬窄依賴以及stage的劃分。

至於為什麼這麼劃分，主要是寬窄依賴在容錯恢複以及處理效能上的差異（寬依賴需要進行shuffer）導致的。

關於spark這幾個術語的瞭解暫時就這麼多，可能不是很到位，不過暫且就這麼多了。

Spark學習筆記1：Application，Driver，Job，Task，Stage理解

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

Spark學習筆記1：Application，Driver，Job，Task，Stage理解

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support