在CentOS上安裝並運行SparkR

最後更新：2015-04-10 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：

環境配置——

作業系統：CentOS 6.5
JDK版本：1.7.0_67
Hadoop叢集版本：CDH 5.3.0

安裝過程——

1、安裝R

yum install -y R

2、安裝curl-devel（非常重要！否則無法進行RCurl包的安裝，進而無法安裝devtools）

yum install -y curl-devel

3、設定必要的環境變數（非常重要！這裡必須設定成Hadoop環境對應的版本和Yarn對應的版本，否則用Spark與Hadoop HDFS資料通訊會報Hadoop 連接器版本不匹配）

vi + /etc/profile...export USE_YARN=1export SPARK_VERSION=1.1.0export SPARK_YARN_VERSION=2.5.0-cdh5.3.0export SPARK_HADOOP_VERSION=2.5.0-cdh5.3.0

4、進入R命令列，安裝R包（最後一步安裝SparkR時，需要安裝很多依賴包，過程很漫長，可能需要重試多次才能成功）

install.packages("RCurl")install.packages("devtools")library(devtools)install_github("amplab-extras/SparkR-pkg", subdir="pkg")

5、大功告成，安裝完畢！現在用SparkR讀取HDFS中的檔案：

library(SparkR)sc <- sparkR.init(master = "local", "RwordCount")lines <- textFile(sc, "hdfs://quickstart.cloudera:8020/test/test.txt")words <- flatMap(lines, function(line) {    strsplit(line, " ")[[1]]})wordCount <- lapply(words, function(word) {    list(word, 1L)})counts <- reduceByKey(wordCount, "+", 2L)output <- collect(counts)for (count in output) {    cat(count[[1]], ": ", count[[2]], "\n")}

參考資料：

SparkR的官方文檔
SparkR安裝步驟

在CentOS上安裝並運行SparkR

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

在CentOS上安裝並運行SparkR

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support