Spark 2.2 需要運行在java環境,是不是任何版本都可以呢。不見得。之前在spark官網中看到需要運行環境是jdk8+,所以本人安裝了jdk9,但是在JDK 9環境下沒有安裝成功,運行spark的 ./bin/spark-shell會報某個配置值丟失(估計是JDK版本的問題)。這次安裝時,選擇了jdk 8,安裝後運行正常。下面簡單記錄一下安裝的過程,比較簡單。
1. 下載Jdk,http://www.oracle.com/technetwork/java/javase/downloads/index.html, 選擇JDK 8 下載
2. 安裝JDK 8。rpm -ivh jdk-8u151-linux-x64.rpm
3. 設定JAVA_HOME. 在/etc/profile最後增加如下兩行
export JAVA_HOME=/usr/java/jdk1.8.0_151export PATH=$PATH:$JAVA_HOME/bin
根據自己安裝的實際目錄去設定java home。
4. 下載Spark。 http://spark.apache.org/downloads.html
選擇2.2.0版本,包類型選擇預設的“Pre-built for Apache Hadoop 2.7 and later”
5. Copy至要安裝的目錄下,解壓縮
tar zxvf spark-2.2.0-bin-hadoop2.7.tgz
6. 運行Spark
./sbin/start-master.sh
檢查logs中的日誌,是否有錯誤
7. 運行spark-shell
./bin/spark-shell
沒有錯誤的話就安裝成功了。
另外,如果是使用的Python的話,可以安裝Python,然後運行./bin/pyspark。本人在Python 3.6.3上安裝成功。以下是安裝Python 3.6簡單操作
8. 下載Python 3.6
https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tar.xz
9. 安裝xz解壓工具
yum install xz
10. 解壓安裝包
xz -d Python-3.6.3.tar.xztar xvf Python-3.6.3.tar
11. 編譯及安裝可參見 不畏懼兄的部落格 http://www.cnblogs.com/cloud-80808174-sea/p/6902934.html
其中需要注意的是,在Spark 2.10版本以後不再支援Python2.7,所以在安裝完Python3.6.3後,需要把3.6.3設為預設,在不畏懼兄的部落格中有寫如何更改。