標籤:自動化營運 python 大資料 Hadoop
Python大資料應用簡介
簡介:目前業界主流儲存與分析平台以Hadoop為主的開源生態圈,MapReduce作為Hadoop的資料集的並行運算模型,除了提供Java編寫MapReduce任務外,還相容了Streaming方式,可以使用任意指令碼語言來編寫MapReduce任務,優點是開發簡單且靈活。
Hadoop環境部署1、部署Hadoop需要Master訪問所有Slave主機實現無密碼登陸,即配置帳號公開金鑰認證。2、Master主機安裝JDK環境
yum安裝方式:yum install -y java-1.6.0-openjdk*配置Java環境變數:vi /etc/profileJAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.41.x86_64JRE_HOME=$JAVA_HOME/jreCLASS_PATH=::$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/libPATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/binexport JAVA_HOME JRE_HOME CLASS_PATH PATH使設定檔生效:source /etc/profile
3、Master主機安裝Hadoop3.1、下載Hadoop,解壓到/usr/local目錄下3.2、修改hadoop-env.sh中java環境變數
export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.41.x86_64
3.3、修改core-site.xml(Hadoop core的設定檔)
<configuration><property> <name>hadoop.tmp.dir</name> <value>/data/tmp/hadoop-${user.name}</value></property><property> <name>fs.default.name</name> <value>hdfs://192.168.1.1:9000</value></property></configuration>
3.4、修改hdfs-site.xml(Hadoop的HDFS組件的配置項)
<configuration><property> <name>dfs.name.dir</name> <value>/data/tmp/name</value></property><property> <name>dfs.data.dir</name> <value>/data/hdfs/data</value></property><property> <name>dfs.datanode.max.xcievers</name> <value>4096</value></property><property> <name>dfs.replication</name> <value>2</value></property></configuration>
3.5、修改mapred-site.xml(配置map-reduce組件的屬性,包括jobtracker和tasktracker)
<configuration><property> <name>mapred.job.tracker</name> <value>192.168.1.1:9001</value></property></configuration>
3.6、修改masters,slaves設定檔
masters檔案
192.168.1.1
slaves檔案
192.168.1.1192.168.1.2192.168.1.3
4、Slave主機配置4.1、配置和Master主機一樣的JDK環境,目標路徑保持一致4.2、將Master主機配置好的hadoop環境複製到Slave主機上5、配置防火牆
master主機
iptables -I INPUT -s 192.168.1.0/24 -p tcp --dport 50030 -j ACCEPTiptables -I INPUT -s 192.168.1.0/24 -p tcp --dport 50070 -j ACCEPTiptables -I INPUT -s 192.168.1.0/24 -p tcp --dport 9000 -j ACCEPTiptables -I INPUT -s 192.168.1.0/24 -p tcp --dport 90001 -j ACCEPT
Slave主機
iptables -I INPUT -s 192.168.1.0/24 -p tcp --dport 50075 -j ACCEPTiptables -I INPUT -s 192.168.1.0/24 -p tcp --dport 50060 -j ACCEPTiptables -I INPUT -s 192.168.1.1 -p tcp --dport 50010 -j ACCEPT
6、檢驗結果6.1、在Master主機上執行啟動命令(在安裝目錄底下)
./bin/start-all.sh
所示結果如下,表示啟動成功
6.2、在Master主機上測試MapReduce樣本
./bin/hadoop jar hadoop-examples-1.2.1.jar pi 10 100
所示結果如下,表示配置成功
7、補充:訪問Hadoop提供的管理頁面
Map/Reduce管理地址:192.168.1.1:50030
HDFS管理地址:192.168.1.1:50070
1、Python大資料應用——部署Hadoop