hadoop學習二:hadoop基本架構與shell操作

來源:互聯網
上載者:User

標籤:

1.hadoop1.0與hadoop2.0的區別:

  

  hadoop1.0生態如:

  

  hadoop2.0生態:

  

2.HDFS描述:HDFS是google的GFS的開源複製,HDFS的架構如:

  

  1) NameNode:管理HDFS的名稱空間,管理資料區塊映射資訊,配置副本策略,處理用戶端讀寫請求。

  2) StandbyNameNode:NameNode的熱備,定期合并fsimage和fsedits,推送給NameNode,當Active NameNode出現故障時,快速切換為新的 Active NameNode。

  3) Datanode:儲存實際的資料區塊,執行資料區塊讀/寫。

  4) Client:檔案切分,與NameNode互動,擷取檔案位置資訊,與DataNode互動,讀取或者寫入資料,管理HDFS,訪問HDFS。

  優點:高容錯性;適合批處理;適合大資料處理;流式檔案訪問;可構建在廉價機器上。

  缺點:低延遲資料訪問,比如毫秒級,低延遲與高吞吐率;小檔案存取,佔用NameNode大量記憶體,尋道時間超過讀取時間;並發寫入、檔案隨機修改一個檔案只能有一個寫  者,僅支援append。

3.HDFS的資料形式

  檔案被切分成固定大小的資料區塊,預設資料區塊大小為64MB,可配置塊的大小,若檔案大小不到64MB,則單獨存成一個block。一個檔案儲存體方式按大小被切分成若干個block,儲存到不同節點上,預設情況下每個block有三個副本。

  HDFS資料寫流程:

  

  HDFS資料讀流程:

  

4.MapReduce:是google的MapReduce的開源複製,適合PB級以上海量資料的離線處理。

  MapReduce的計算架構:

  

5.YARN:Hadoop 2.0新增系統,負責叢集的資源管理和調度,使得多種計算架構可以運行在一個叢集中,內建了多種多使用者調度器,適合共用叢集環境。

  YARN架構:

  

6.HDFS的shell操作:

  Hadoop的shell命令在hadoop的bin目錄下,用hdfs命令可以查看HDFS檔案系統中的命令,如:

  

  dfsadmin:在bin目錄下hadoop dfsadmin命令選項如:

    

  dfs:在bin目錄下hadoop dfs命令選項如:

  

  fsck:檢查檔案屬性命令,其操作如:

  

hadoop學習二:hadoop基本架構與shell操作

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.