標籤:
HDInsight cluster on Linux
登入 Azure portal (https://manage.windowsazure.com )
點擊左下角的 NEW 按鈕,然後點擊 DATA SERVICES 按鈕,點擊 HDINSIGHT,選擇 HADOOP ON LINUX,如所示。
輸入集群名稱,選擇叢集大小和帳號,設定叢集的密碼和儲存帳號,下表是各個參數的含義和配置說明。
Name |
Value |
Cluster Name |
Name of the cluster. |
Cluster Size |
Number of data nodes you want to deploy. The default value is 4. But the option to use 1 or 2 data nodes is also available from the drop-down. Any number of cluster nodes can be specified by using the Custom Create option. Pricing details on the billing rates for various cluster sizes are available. Click the ? symbol just above the drop-down box and follow the link on the pop-up. |
Password |
The password for the HTTP account (default user name: admin) and SSH account (default user name: hdiuser). Note that these are NOT the administrator accounts for the virtual machines on which the clusters are provisioned. |
Storage Account |
Select the Storage account you created from the drop-down box. Once a Storage account is chosen, it cannot be changed. If the Storage account is removed, the cluster will no longer be available for use. The HDInsight cluster is co-located in the same datacenter as the Storage account. |
點擊 CREATE HDINSIGHT CLUSTER 即可建立運行於 Azure 的 Hadoop 叢集。
上述過程快速建立一個運行Hadoop 的 Linux 叢集,且預設 SSH 使用者名稱稱為 hdiuser,HTTP 賬戶預設名稱為 admin。若要用自訂選項,例如使用 SSH 金鑰進行身分識別驗證建立群集或使用額外的儲存空間,請參閱 Provision Hadoop Linux clusters in HDInsight using custom options ( https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-provision-linux-clusters/ ) 。
Installing Spark
在 HDInsight 中點擊建立的 Hadoop叢集(在本例中叢集名稱為 Hadooponlinux ),進入 dashboard,如所示。
在 quick glance 中拷貝 Cluster Connection String的值,此為登入 Hadoop on Linux 配置控制台 Ambari的地址,在瀏覽器中粘貼 Cluster Connection String的值,此時出現登入使用者名稱和密碼的驗證。此時的使用者名稱為上一步中快速建立hadoop叢集時預設HTTP使用者名稱admin,密碼為快速建立hadoop叢集時設定的密碼。
正確輸入使用者名稱和密碼後,出現 Ambari的登入使用者名稱和密碼驗證,此時輸入使用者名稱 admin 密碼為hadoop即可進入Ambari的管理主控台。
展示了使用 Ambari 安裝Spark的過程。
The following diagram shows the Spark installation process using Ambari.
- 選擇 Ambari "Services" 選項卡。
在 Ambari "Actions" 下拉式功能表中選擇 "Add Service." 這將啟動添加服務嚮導。
選擇 "Spark",然後點擊 "Next" 。
(For HDP 2.2.4, Ambari will install Spark version 1.2.1, not 1.2.0.2.2.)
- Ambari 將顯示警告訊息,確認叢集啟動並執行是 HDP 2.2.4 或更高版本,然後單擊 "Proceed"。
|
Note |
You can reconfirm component versions in Step 6 before finalizing the upgrade. |
- 選擇Spark 曆史伺服器節點,點擊 Click "Next" 繼續。
- 指定 Spark 的Slaves ,點擊 "Next" 繼續。
- 在客戶化服務介面建議您使用預設值為您的初始配置,然後點擊 "Next" 繼續。
- Ambari 顯示確認介面,點擊 "Deploy" 繼續。
|
Important |
On the Review screen, make sure all HDP components are version 2.2.4 or later. |
- Ambari 顯示安裝、啟動和測試介面,其狀態列和訊息則指示進度。
- 當Ambari安裝完成,點擊 "Complete" 完成 Spark 的整個安裝過程。
Run Spark
通過 SSH 登入 Hadoop 的 Linux 叢集,執行以下的Linux 指令下載文檔,為後面的Spark程式運行使用。
wget http://en.wikipedia.org/wiki/Hortonworks
將資料拷貝至 Hadoop 叢集的HDFS中,
hadoop fs -put ~/Hortonworks /user/guest/Hortonworks
在很多Spark的例子中採用Scala和Java的應用程式示範,本例中使用 PySpark 來示範基於Python語音的Spark使用方法。
pyspark
第一步使用 Spark Context 即 sc 建立RDD,代碼如下:
myLines = sc.textFile(‘hdfs://sandbox.hortonworks.com/user/guest/Hortonworks‘)
現在我們執行個體化了RDD,下面我們對RDD做轉化的操作。為此我們使用python lambda運算式做篩選。
myLines_filtered = myLines.filter( lambda x: len(x) > 0 )
請注意,以上的python語句不會引發任何RDD的執行操作,只有出現類型以下代碼的count()行為才會引發真正的RDD運算。
myLines_filtered.count()
最終Spark Job運算的結果如下所示。
341.
Data Science with Spark
對於資料科學家而言Spark是一種高度有效資料處理工具。資料科學家經常類似Notebook ( 如 iPython http://ipython.org/notebook.html ) 的工具來快速建立原型並分享他們的工作。許多資料科學家喜好使用 R語言,可喜的是Spark與R的整合即 SparkR已成為 Spark 新興的能力。Apache Zeppelin (https://zeppelin.incubator.apache.org/ ) 是一種新興的工具,提供了基於 Spark 的 Notebook 功能,這裡是Apache Zeppelin 提供的易用於 Spark的使用者介面視圖。
雪松
Microsoft MVP -- Windows Platform Development,
Hortonworks Certified Apache Hadoop 2.0 Developer
Azure HDInsight 和 Spark 大資料實戰(二)