標籤:hadoop 版本 cdh
由於Hadoop還處於初期高速發展的節點,加上它又是開源的,因此它的版本一直很混亂,Hadoop一些主要的特性有:
- Append:支援檔案追加功能,如果想使用HBase,需要這個特性。
- RAID : 在保證資料可靠的前提下,通過引入校正碼減少資料區塊數目。詳細連結:https://issues.apache.org/jira/browse/HDFS/component/12313080
- Symlink :支援HDFS檔案連結,具體可參考:https://issues.apache.org/jira/browse/HDFS-245
- Security : Hadoop安全性,具體可參考:https://issues.apache.org/jira/browse/HADOOP-4487
- NameNode HA :具體可參考:https://issues.apache.org/jira/browse/HDFS-1064
- HDFS Federation和YARN
下面是Hadoop的版本演化:
Apache版本下載:
- 各版本說明:http://hadoop.apache.org/releases.html
- 下載穩定版:找到一個鏡像,下載stable檔案夾下的版本
- Hadoop最全版本:http://svn.apache.org/repos/asf/hadoop/common/branches/,可直接導到eclipse中
Cloudera發布版:
從上面我們可以知道,Apache當前的版本管理是比較混亂的,各種版本層出不窮,讓很多初學者不知所措,相比之下,Cloudera公司的Hadoop版本管理的要很多。我們知道,Hadoop遵從Apache開源協議,使用者可以免費地任意使用和修改Hadoop,也正因此,市面上出現了很多Hadoop版本,其中比較出名的一是Cloudera公司的發行版,我們將該版本稱為CDH(Cloudera Distribution Hadoop)。截至目前為止,CDH共有4個版本,其中,前兩個已經不再更新,最近的兩個,分別是CDH3(在Apache Hadoop 0.20.2版本基礎上演化而來的)和CDH4在Apache Hadoop 2.0.0版本基礎上演化而來的),分別對應Apache的Hadoop 1.0和Hadoop 2.0,它們每隔一段時間便會更新一次。
Cloudera以patch level劃分小版本,比如patch level為923.142表示在原生態Apache Hadoop 0.20.2基礎上添加了1065個patch(這些patch是各個公司或者個人貢獻的,在Hadoop jira上均有記錄),其中923個是最後一個beta版本添加的patch,而142個是穩定版發行後新添加的patch。由此可見,patch level越高,功能越完備且解決的bug越多。
Cloudera版本層次更加清晰,且它提供了適用於各種作業系統的Hadoop安裝包,可直接使用apt-get或者yum命令進行安裝,更加省事。