Hadoop學習筆記之Hadoop的來龍去脈

來源:互聯網
上載者:User

談到Hadoop就不得不提到Lucene和Nutch。首先,Lucene並不是一個應用程式,而是提供了一個純Java的高效能全文索引引擎工具包,它可以方便的嵌入到各種實際應用中實現全文檢索搜尋/索引功能。Nutch是一個應用程式,是一個以Lucene為基礎實現的搜尋引擎應用,Lucene 為Nutch提供了文本搜尋和索引的API,Nutch不光有搜尋的功能,還有資料抓取的功能。在nutch0.8.0版本之前,Hadoop還屬於 Nutch的一部分,而從nutch0.8.0開始,將其中實現的NDFS和MapReduce剝離出來成立一個新的開源項目,這就是Hadoop,而 nutch0.8.0版本較之以前的Nutch在架構上有了根本性的變化,那就是完全構建在Hadoop的基礎之上了。在Hadoop中實現了 Google的GFS和MapReduce演算法,使Hadoop成為了一個分布式的計算平台。

其實,Hadoop並不僅僅是一個用於儲存的Distributed File System,而是設計用來在由通用計算裝置組成的大型叢集上執行分布式應用的架構。

Hadoop包含兩個部分:

1、HDFS

即Hadoop Distributed File System (HadoopDistributed File System)

HDFS具有高容錯性,並且可以被部署在低價的硬體裝置之上。HDFS很適合那些有大資料集的應用,並且提供了對資料讀寫的高吞吐率。 HDFS是一個master/slave的結構,就通常的部署來說,在master上只運行一個Namenode,而在每一個slave上運行一個 Datanode。

HDFS支援傳統的層次檔案組織圖,同現有的一些檔案系統在操作上很類似,比如你可以建立和刪除一個檔案,把一個檔案從一個目錄移到另一個目錄,重新命名等等操作。Namenode管理著整個Distributed File System,對檔案系統的操作(如建立、刪除檔案和檔案夾)都是通過Namenode來控制。

2、MapReduce的實現

MapReduce是Google 的一項重要技術,它是一個編程模型,用以進行大資料量的計算。對於大資料量的計算,通常採用的處理手法就是並行計算。至少現階段而言,對許多開發人員來說,並行計算還是一個比較遙遠的東西。MapReduce就是一種簡化並行計算的編程模型,它讓那些沒有多少並行計算經驗的開發人員也可以開發並行應用。

MapReduce的名字源於這個模型中的兩項核心操作:Map和 Reduce。也許熟悉Functional Programming(函數式編程)的人見到這兩個詞會倍感親切。簡單的說來,Map是把一組資料一對一的映射為另外的一組資料,其映射的規則由一個函數來指定,比如對[1, 2, 3, 4]進行乘2的映射就變成了[2, 4, 6, 8]。Reduce是對一組資料進行歸約,這個歸約的規則由一個函數指定,比如對[1, 2, 3, 4]進行求和的歸約得到結果是10,而對它進行求積的歸約結果是24。

關於MapReduce的內容,建議看看這篇文章MapReduce:The Free Lunch Is Not Over!

持續學習中....Hurry

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.