大資料學習筆記3--HDFS擴充和mapreduce工作過程

來源:互聯網
上載者:User

標籤:hdfs   mapreduce   

HDFS配置:

  • 用戶端中的配置參數可以覆蓋服務端的參數。

  • 例如:副本數,切塊大小

HDFS檔案儲存體:

  • 服務端儲存block的實際大小,但是不適合儲存小檔案,小檔案會佔用namenode的中繼資料空間。

  • 對於小檔案資料的最佳化,可以在上傳之前先合并再上傳。

  • 例如:壓縮、文字檔合并

HDFS擴充:

  • hdfs支援rest API,與平台無關

  • jetty 容器

  • hdfs支援rest command

分布式任務傳統方式:

  1. 任務資源分發 jar設定檔。。。硬體資源的分配

  2. 任務在各個任務節點上設定運行環境,啟動執行

  3. 監視各個階段任務執行狀態

  4. 任務失敗,重試

  5. 中間結果調度,匯總

hadoop對分布式抽象

  • yarn:資源調度器,負責硬體資源調度、任務分配、環境配置、啟動任務。

  • mapredce:分布式運算架構,監視任務執行、失敗重試、中間結果調度。

  • spark、storm:即時計算

mapreduce

  • mapper:
    一次讀取一行資料
    輸出一組keyValue
    mapper個數等於block塊數
  • shuffle:
    合并資料
  • reduce:
    商務邏輯處理

hadoop序列化機制:

  • hadoop中目前的序列化機制是writable,後續版本中會替換為avro

mapreduce任務提交方式

  1. jar包,hadoop jar wordcount.jar Count
    mr會被提交到叢集,屬於叢集的運行方式
  2. local模式
    在eclipse裡直接運行main方法
  3. eclipse hadoop 外掛程式

mapreduce任務執行流程

  • RunJar:用戶端
  • ResourceManager:資源管理員,老大
  • NodeManager:執行工作管理員
  • MrAppMaste:任務啟動、監控、失敗重試
  • yarnchild:mapper和reducer
  1. RunJar向ResourceManager申請提交一個job
  2. ResourceManager返回jobid和一個job的提交的路徑(hdfs://)
  3. RunJar提交job任務的相關檔案(jar,配置job.xml,split.xml)到hdfs
  4. RunJar上報給ResourceManager任務已經提交完成
  5. ResourceManager分配資源,並將任務任務寫入到任務隊列中
  6. NodeManager主動向ResourceManager領取任務
  7. NodeManager在一個容器中啟動MrAppMaster
  8. MrAppMaster向ResourceManager註冊
  9. ResourceManager向MrAppMaster返回資源資訊
  10. MrAppMaster啟動mapper(mapper reducer詳細流程。。。)
  11. MrAppMaster啟動reducer
  12. 任務執行完成,向ResourceManager登出資源

大資料學習筆記3--HDFS擴充和mapreduce工作過程

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.