拉開大變革序幕（下）：分散式運算架構與大資料

最後更新：2016-01-20 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：

不可變基礎設施

如何更好地使用容器技術實現不可變基礎設施

Tachyon

Tachyon簡介

南京大學PASA大資料實驗室

SPARK/TACHYON:基於記憶體的分布式儲存系統

Spark on Yarn

搭建spark on yarn叢集全過程 —— 可與 3 形成參考
Spark on Yarn
Spark On YARN 叢集安裝部署 —— 推薦

1) 配置Hadoop Yarn叢集時出現的問題及修複：

在每一台機器上（master和各個slave），都要對hadoop-env.sh和yarn-env.sh兩個檔案末尾添加（export）JAVA_HOME這個環境變數（根據具體機器上JAVA_HOME的不同而不同）。
在經過

cd ~/hadoop-2.7.1     #進入hadoop目錄bin/hadoop namenode -format     #格式化namenodesbin/start-dfs.sh               #啟動dfs sbin/start-yarn.sh              #啟動yarn

之後，登入 http://master:8088，發現有slave節點是unhealthy狀態，再進行一下配置，在每台機器（master和各個slave）上，修改yarn-site.xml檔案，添加如下：（不推薦！）

name=yarn.nodemanager.disk-health-checker.enable
value=false

然後在master上stop-all.sh後，重新啟動叢集：

sbin/start-dfs.sh               #啟動dfs sbin/start-yarn.sh              #啟動yarn

就會發現恢複正常。

2) 配置spark的spark-env.sh時

注意master上SPARK_LOCAL_DIRS的值和各個slave上應當一樣，即spark放在各個機器的同一路徑下。

3) 目前來看在REHL 7.1上編譯成的hadoop並不能在SUSE上跑起來

4) 各種slaves檔案中不添加localhost這一項

Hadoop 編譯出錯

我是在IBM JAVA環境下進行hadoop的編譯。列出編譯過程中的錯誤和解決方案，供大家參考。

1) Antrun

Failed to execute goal
org.apache.maven.plugins:maven-antrun-plugin:1.6:run (create-testdirs)

http://stackoverflow.com/questions/17126213/building-hadoop-with-maven-failed-to-execute-goal-org-apache-maven-pluginsma

chown -R username parent-directory（ 如 chown -R root ../ ）mvn install -DskipTests

2) Build failed with JVM IBM JAVA on TestSecureLogins

package com.sun.security.auth.module does not exist

https://issues.apache.org/jira/browse/HADOOP-11783

這是專門為在IBM JAVA環境下打的patch。

3) 經過上面兩個fix後如果很快顯示BUILD SUCCESS，並且在（假設下載的源碼檔案夾名為hadoop-release-2.7.1）hadoop-release-2.7.1/hadoop-dist/target/目錄下沒有名為hadoop-2.7.1.tar.gz的tar包，說明沒有編譯成功，返回到hadoop-release-2.7.1這個根目錄下，繼續執行：

mvn package -Pdist -DskipTests -Dtar

http://www.iteblog.com/archives/897

這之後編譯的時間明顯變長，各位在這段驚心動魄的時間裡度過吧:)

YARN叢集運行SparkPi出錯

Exception in thread “main” java.io.IOException: All datanodes
9.12.43.187:50010 are bad. Aborting…
at
org.apache.hadoop.hdfs.DFSOutputStream DataStreamer.setupPipelineForAppendOrRecovery(DFSOutputStream.java:1206)
at
org.apache.hadoop.hdfs.DFSOutputStream DataStreamer.processDatanodeError(DFSOutputStream.java:1004)
at
org.apache.hadoop.hdfs.DFSOutputStream DataStreamer.run(DFSOutputStream.java:548)

有可能是因為IBM大型主機上大小端的問題，需要一個patch。
或者通過組合異構平台解決。

運行成功顯示：

拉開大變革序幕（下）：分散式運算架構與大資料

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

拉開大變革序幕（下）：分散式運算架構與大資料

聯繫我們

熱門內容

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support

拉開大變革序幕（下）：分散式運算架構與大資料

聯繫我們

熱門內容

熱門主題

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support