通過Spark的shell測試Spark的工作

來源:互聯網
上載者:User

Step1:啟動Spark叢集,這一點在第三講講的極為細緻,啟動後的WebUI如下:

Step2:啟動Spark Shell:

此時可以通過如下Web控制台查看shell的情況:

Step3:把Spark安裝目錄“README.md”拷貝到HDFS系統上

在Master節點上新啟動一個命令終端,並進入到Spark安裝目錄下:

我們把檔案拷貝到HDFS的root檔案夾下:

此時,我們觀察一下Web控制台,會發現該檔案已經成功上傳到HDFS上:

Step4:在Spark shell之下操作編寫代碼,操作我們上傳的“README.md”:

首先,我們看一下在Shell環境下的“sc”這個自動協助我們生產的環境變數:

可以看出sc就是SparkContext的執行個體,這是在啟動Spark Shell的時候系統協助我們自動產生的,SparkContext是把代碼提交到叢集或者本地的通道,我們編寫Spark代碼,無論是要運行本地還是叢集都必須有SparkContext的執行個體。

接下來,我們讀取“README.md”這個檔案:

我們把讀取的內容儲存給了file這個變數,其實file是一個MappedRDD,在Spark的代碼編寫中,一切都是基於RDD操作的;

 

再接下來,我們從讀取的檔案中過濾出所有的“Spark”這個詞

此時產生了一個FilteredRDD;

再接下來,我們統計一下“Spark”一共出現了多少次:

從執行結果中我們發現“Spark”這個詞一共出現了15次。

此時,我們查看Spark Shell的Web控制台:

發現控制台中顯示我們提交了一個任務並成功完成,點擊任務可以看到其執行詳情:

那我們如何驗證Spark Shell對README.md這個檔案中的“Spark”出現的15次是正確的呢。其實方法很簡單,我們可以使用Ubuntu內建的wc命令來統計,如下所示:

發現此時的執行結果也是15次,和Spark Shell的計數是一樣一樣的。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.