標籤:hadoop r rhive
RHive 是一種通過HIVE高效能查詢來擴充R計算能力的包。它可以在R環境中非常容易的調用HQL, 也允許在Hive中使用R的對象和函數。理論上資料處理量可以無限擴充的Hive平台,搭配上資料採礦的利器R環境, 堪稱是一個完美的大資料分析挖掘的工作環境。
資源套件:
http://pan.baidu.com/s/1ntwzeTb
安裝
首先hadoop 以及hive 的安裝這裡就跳過了。這裡主要介紹在Centos 中如何安裝R 語言以及如何整合Rhive 到hadoop 中。
本次實驗節點有8個因此我們需要在每個節點中安裝R 以及相應的其他模組首先我們來看看如何安裝R
下載資源套件中的 R-3.2.0.tar.gz 並解壓
編譯前確保安裝如下模組
執行命令:
yum install gcc-gfortran gcc gcc-c++ libXt-devel openssl-devel readline-devel
RHive 依賴於Rserve,因此在編譯安裝R的時候主要使用參數 --disable-nls --enable-R-shlib:
cd R-3.2.0/
./configure --disable-nls --enable-R-shlibmakemake install
cd ../
執行R 命令進行rJAVA 、RHive 等模組的安裝
R CMD INSTALL rJava_0.9-6.tar.gzR CMD INSTALL Rserve_1.8-3.tar.gz R CMD INSTALL RHive_2.0-0.2.tar.gz
說明:如果你有多個節點,請在每個節點 和master 中均安裝上述模組
到此安裝結束,我們進入環境配置部分。
配置
1. 建立RHIVE 資料存放區路徑(本地的非HDFS)
我這裡儲存在 /www/store/rhive/data
2.建立Rserv.conf 檔案並寫入 “remote enable” 儲存到你指定的目錄
我這裡存放在 /www/cloud/R/Rserv.conf
3.修改各個節點以及master 的 /etc/profile 新增環境變數
export RHIVE_DATA=/www/store/rhive/data
4.將R目錄下的lib目錄中所有檔案上傳至HDFS 中的/rhive/lib 目錄下(如果目錄不存在手工建立一下即可)
cd /usr/local/lib64/R/lib
hadoop fs -put ./* /rhive/lib
啟動
1.在所有節點和master 上執行
R CMD Rserve --RS-conf /www/cloud/R/Rserv.conf
telnet cloud01 6311
然後在Master節點telnet所有slave節點,顯示 Rsrv0103QAP1 則表示串連成功
2.啟動hive遠程服務: rhive是通過thrift串連hiveserver的,需要要啟動後台thrift服務,即:在hive用戶端啟動hive遠程服務,如果已經開啟了跳過本步驟
nohup hive --service hiveserver &
Rhive 測試
library(RHive)
rhive.connect("master", 10000,hiveServer2=TRUE)
完畢!
最後附上RHive 相關文檔地址
https://github.com/nexr/RHive/wiki/User-Guide
本文參考地址:
http://yangqijun.com/archives/341
http://www.cnblogs.com/end/archive/2013/02/18/2916105.html
著作權聲明:本文為博主原創文章,未經博主允許不得轉載。
Centos 安裝R 整合 Hadoop、RHive 配置安裝手冊