Hadoop安裝配置

來源:互聯網
上載者:User
 最近在公司接手了新的project,需要對公司的整個無線網路進行分布式的爬取,網頁索引進行更新和計算PR值,由於資料量太大(千萬級資料量),不得不進行分布式的處理。新的版本準備採用Hadoop架構,現在將Hadoop配置的大致過程和需要注意的事項進行說明,呵呵,轉載自別人的文章(以後的文章我會著重說明我在配置的過程中碰到的一些問題,作為一點小小的總結吧)http://www.cnblogs.com/wayne1017/archive/2007/03/20/678724.html

本文主要是以安裝和使用hadoop為例,指出在部署Hadoop的時候容易遇到的問題以及如何解決。

硬體環境
共有3台機器,均使用的FC5系統,Java使用的是jdk1.6.0。IP配置如下:
dbrg-1:202.197.18.72
dbrg-2:202.197.18.73
dbrg-3:202.197.18.74

這裡有一點需要強調的就是,務必要確保每台機器的主機名稱和IP地址之間能正確解析。

一個很簡單的測試辦法就是ping一下主機名稱,比如在dbrg-1上ping
dbrg-2,如果能ping通就OK!若不能正確解析,可以修改/etc/hosts檔案,如果該台機器作Namenode用,則需要在hosts檔案中加上叢集中所有機器的IP地址及其對應的主機名稱;如果該台機器作Datanode用,則只需要在hosts檔案中加上本機IP地址和Namenode機器的IP地址。

以本文為例,dbrg-1中的/etc/hosts檔案看起來就應該是這樣的:
127.0.0.0        
localhost     localhost
202.197.18.72     dbrg-1       
dbrg-1
202.197.18.73     dbrg-2        dbrg-2
202.197.18.74    
dbrg-3        dbrg-3

dbrg-2中的/etc/hosts檔案看起來就應該是這樣的:
127.0.0.0        
localhost    localhost
202.197.18.72     dbrg-1      
dbrg-1
202.197.18.73     dbrg-2       dbrg-2

在上一篇學習筆記中提到過,對於Hadoop來說,在HDFS看來,節點分為Namenode和Datanode,其中Namenode只有一個,Datanode可以是很多;在MapReduce看來,節點又分為Jobtracker和Tasktracker,其中Jobtracker只有一個,Tasktracker可以是很多。
我是將namenode和jobtracker部署在dbrg-1上,dbrg-2,dbrg-3作為datanode和tasktracker。當然你也可以將namenode,datanode,jobtracker,tasktracker全部部署在一台機器上

目錄結構
由於Hadoop要求所有機器上hadoop的部署目錄結構要相同,並且都有一個相同的使用者名稱的帳戶。
我的三台機器上是這樣的:都有一個dbrg的帳戶,主目錄是/home/dbrg
Hadoop部署目錄結構如下:/home/dbrg/HadoopInstall,所有的hadoop版本放在這個目錄中。
將hadoop0.12.0壓縮包解壓至HadoopInstall中,為了方便以後升級,建議建立一個連結指向要使用的hadoop版本,不妨設為hadoop
[dbrg@dbrg-1:HadoopInstall]$ln 
-s  hadoop0.12.0  
hadoop
這樣一來,所有的設定檔都在/hadoop/conf/目錄中,所有執行程式都在/hadoop/bin目錄中。
但是由於上述目錄中hadoop的設定檔和hadoop的安裝目錄是放在一起的,這樣一旦日後升級hadoop版本的時候所有的設定檔都會被覆蓋,因此建議將設定檔與安裝目錄分離,一種比較好的方法就是建立一個存放設定檔的目錄,/home/dbrg/HadoopInstall/hadoop-config/,然後將/hadoop/conf/目錄中的hadoop_site.xml,slaves,hadoop_env.sh三個檔案拷貝到hadoop-config/目錄中(這個問題很奇怪,在官網上的Getting
Started With
Hadoop中說是只需要拷貝這個三個檔案到自己建立的目錄就可以了,但我在實際配置的時候發現還必須把masters這個檔案也拷貝到hadoop-conf/目錄中才行,不然啟動Hadoop的時候就會報錯說找不到masters這個檔案),並指定環境變數$HADOOP_CONF_DIR指向該目錄。環境變數在/home/dbrg/.bashrc和/etc/profile中設定。
綜上所述,為了方便以後升級版本,我們需要做到設定檔與安裝目錄分離,並通過設定一個指向我們要使用的版本的hadoop的連結,這樣可以減少我們對設定檔的維護。在下面的部分,你就會體會到這樣分離以及連結的好處了。

SSH設定
在Hadoop啟動以後,Namenode是通過SSH(Secure
Shell)來啟動和停止各個節點上的各種守護進程的,這就需要在節點之間執行指令的時候是不需要輸入密碼的方式,故我們需要配置SSH使用無密碼公開金鑰認證的方式。
首先要保證每台機器上都裝了SSH伺服器,且都正常啟動。實際中我們用的都是OpenSSH,這是SSH協議的一個免費開源實現。FC5中預設安裝的OpenSSH版本是OpenSSH4.3P2。
以本文中的三台機器為例,現在dbrg-1是主節點,它需要主動發起SSH串連到dbrg-2和dbrg-3,對於SSH服務來說,dbrg-1就是SSH用戶端,而dbrg-2、dbrg-3則是SSH服務端,因此在dbrg-2,dbrg-3上需要確定sshd服務已經啟動。簡單的說,在dbrg-1上需要產生一個金鑰組,即一個私密金鑰,一個公開金鑰。將公開金鑰拷貝到dbrg-2,dbrg-3上,這樣,比如當dbrg-1向dbrg-2發起ssh串連的時候,dbrg-2上就會產生一個隨機數並用dbrg-1的公開金鑰對這個隨機數進行加密,並發送給dbrg-1;dbrg-1收到這個加密的數以後用私密金鑰進行解密,並將解密後的數發送回dbrg-2,dbrg-2確認解密的數無誤後就允許dbrg-1進行串連了。這就完成了一次公開金鑰認證過程。

對於本文中的三台機器,首先在dbrg-1上產生金鑰組:
[dbrg@dbrg-1:~]$ssh-keygen 
-t 
rsa
這個命令將為dbrg-1上的使用者dbrg產生其金鑰組,詢問其儲存路徑時直接斷行符號採用預設路徑,當提示要為產生的密鑰輸入passphrase的時候,直接斷行符號,也就是將其設定為空白密碼。產生的金鑰組id_rsa,id_rsa.pub,預設儲存在/home/dbrg/.ssh目錄下。然後將id_rsa.pub的內容複寫到每個機器(也包括本機)的/home/dbrg/.ssh/authorized_keys檔案中,如果機器上已經有authorized_keys這個檔案了,就在檔案末尾加上id_rsa.pub中的內容,如果沒有authorized_keys這個檔案,直接cp或者scp就好了,下面的操作假設各個機器上都沒有authorized_keys檔案。

對於dbrg-1
[dbrg@dbrg-1:.ssh]$cp id_rsa.pub
authorized_keys

對於dbrg-2(dbrg-3同dbrg-2的方法)
[dbrg@dbrg-2:~]$mkdir
.ssh
[dbrg@dbrg-1:.ssh]$scp authorized_keys
dbrg-2:/home/dbrg/.ssh/
此處的scp就是通過ssh進行遠程copy,此處需要輸入遠程主機的密碼,即dbrg-2機器上dbrg帳戶的密碼,當然,你也可以用其他方法將authorized_keys檔案拷貝到其他機器上

[dbrg@dbrg-2:.ssh]$chmod 644 authorized_keys
這一步非常關鍵,必須保證authorized_keys只對其所有者有讀寫權限,其他人不允許有寫的許可權,否則SSH是不會工作的。我就曾經在配置SSH的時候鬱悶了好久。

[dbrg@dbrg-2:.ssh]ls -la
drwx------ 2 dbrg dbrg
.
drwx------ 3 dbrg dbrg ..
 -rw-r--r-- 1 dbrg dbrg
authorized_keys
注意每個機器上的.ssh目錄的ls
-la都應該和上面是一樣的

接著,在三台機器上都需要對sshd服務進行配置(其實是可以不用配置的,完成了上面的那些操作了以後SSH就已經可以工作了),在三台機器上修改檔案/etc/ssh/sshd_config
#去除密碼認證
PasswordAuthentication 
no
AuthorizedKeyFile   .ssh/authorized_keys

至此各個機器上的SSH配置已經完成,可以測試一下了,比如dbrg-1向dbrg-2發起ssh串連
[dbrg@dbrg-1:~]$ssh 
dbrg-2
如果ssh配置好了,就會出現以下提示資訊
The authenticity of host [dbrg-2] can't be
established.
Key fingerprint is 1024
5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52.
Are you sure you want to
continue connecting
(yes/no)?
OpenSSH告訴你它不知道這台主機,但是你不用擔心這個問題,因為你是第一次登入這台主機。鍵入“yes”。這將把這台主機的“識別標記”加到“~/.ssh/know_hosts”檔案中。第二次訪問這台主機的時候就不會再顯示這條提示資訊了。
然後你會發現不需要輸入密碼就可以建立ssh串連了,恭喜你,配置成功了
不過,別忘了測試本機ssh  dbrg-1

Hadoop環境變數
在/home/dbrg/HadoopInstall/hadoop-conf目錄下的hadoop_env.sh中設定Hadoop需要的環境變數,其中JAVA_HOME是必須設定的變數。HADOOP_HOME變數可以設定也可以不設定,如果不設定,HADOOP_HOME預設的是bin目錄的父目錄,即本文中的/home/dbrg/HadoopInstall/hadoop。我的是這樣設定的
export 
HADOOP_HOME=/home/dbrg/HadoopInstall/hadoop
export 
JAVA_HOME=/usr/java/jdk1.6.0
從這個地方就可以看出前面所述的建立hadoop0.12.0的連結hadoop的優點了,當以後更新hadoop的版本的時候,就不需要在改設定檔,只需要更改連結就可以了。

Hadoop設定檔
如前所述,在hadoop-conf/目錄下,開啟slaves檔案,該檔案用來指定所有的從節點,一行指定一個主機名稱。即本文中的dbrg-2,dbrg-3,因此slaves檔案看起來應該是這樣的
dbrg-2
dbrg-3
在conf/目錄中的hadoop-default.xml中包含了Hadoop的所有配置項,但是不允許直接修改!可以在hadoop-conf/目錄下的hadoop-site.xml裡面定義我們需要的項,其值會覆蓋hadoop-default.xml中的預設值。可以根據自己的實際需要來進行定製。以下是我的配置檔:
<?xml
version="1.0"?>
<?xml-stylesheet type="text/xsl"
href="configuration.xsl"?>
<!-- Put site-specific property overrides
in this file. -->
<configuration>
<property>
 
<name>fs.default.name</name>
 
<value>dbrg-1:9000</value>
  <description>The name of the
default file system. Either the literal string "local" or a host:port for
DFS.</description>
</property>
<property>
 
<name>mapred.job.tracker</name>
 
<value>dbrg-1:9001</value>
  <description>The host and port
that the MapReduce job tracker runs at. If "local", then jobs are run in-process
as a single map and reduce
task.</description>
</property>
<property>
 
<name>hadoop.tmp.dir</name>
 
<value>/home/dbrg/HadoopInstall/tmp</value>
 
<description>A base for other temporary
directories.</description>
</property>
<property>
 
<name>dfs.name.dir</name>
 
<value>/home/dbrg/HadoopInstall/filesystem/name</value>
 
<description>Determines where on the local filesystem the DFS name node
should store the name table. If this is a comma-delimited list of directories
then the name table is replicated in all of the directories, for redundancy.
</description>
</property>
<property>
 
<name>dfs.data.dir</name>
 
<value>/home/dbrg/HadoopInstall/filesystem/data</value>
 
<description>Determines where on the local filesystem an DFS data node
should store its blocks. If this is a comma-delimited list of directories, then
data will be stored in all named directories, typically on different devices.
Directories that do not exist are
ignored.</description>
</property>
<property>
 
<name>dfs.replication</name>
  <value>1</value>
 
<description>Default block replication. The actual number of replications
can be specified when the file is created. The default is used if replication is
not specified in create
time.</description>
</property>
</configuration>

     
部署Hadoop
前面講的這麼多Hadoop的環境變數和設定檔都是在dbrg-1這台機器上的,現在需要將hadoop部署到其他的機器上,保證目錄結構一致。
[dbrg@dbrg-1:~]$scp  -r 
/home/dbrg/HadoopInstall  dbrg-2:/home/dbrg/
[dbrg@dbrg-1:~]$scp  -r 
/home/dbrg/HadoopInstall 
dbrg-3:/home/dbrg/
至此,可以說,Hadoop已經在各個機器上部署完畢了下面就讓我們開始啟動Hadoop吧

啟動Hadoop
啟動之前,我們先要格式化namenode,先進入~/HadoopInstall/hadoop目錄,執行下面的命令
[dbrg@dbrg-1:hadoop]$bin/hadoop 
namenode 
-format
不出意外,應該會提示格式化成功。如果不成功,就去hadoop/logs/目錄下去查看記錄檔
下面就該正式啟動hadoop啦,在bin/下面有很多啟動指令碼,可以根據自己的需要來啟動。
* start-all.sh 啟動所有的Hadoop守護。包括namenode, datanode,
jobtracker, tasktrack
* stop-all.sh 停止所有的Hadoop
* start-mapred.sh
啟動Map/Reduce守護。包括Jobtracker和Tasktrack
* stop-mapred.sh 停止Map/Reduce守護
*
start-dfs.sh 啟動Hadoop DFS守護.Namenode和Datanode
* stop-dfs.sh
停止DFS守護

在這裡,簡單啟動所有守護
[dbrg@dbrg-1:hadoop]$bin/start-all.sh

同樣,如果要停止hadoop,則
[dbrg@dbrg-1:hadoop]$bin/stop-all.sh

HDFS操作
運行bin/目錄的hadoop命令,可以查看Haoop所有支援的操作及其用法,這裡以幾個簡單的操作為例。

建立目錄
[dbrg@dbrg-1:hadoop]$bin/hadoop  dfs  -mkdir 
testdir
在HDFS中建立一個名為testdir的目錄

複製檔案
[dbrg@dbrg-1:hadoop]$bin/hadoop  dfs  -put 
/home/dbrg/large.zip 
testfile.zip
把本地檔案large.zip拷貝到HDFS的根目錄/user/dbrg/下,檔案名稱為testfile.zip

查看現有檔案
[dbrg@dbrg-1:hadoop]$bin/hadoop  dfs  -ls

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.