標籤:
1.hadoop1.0與hadoop2.0的區別:
hadoop1.0生態如:
hadoop2.0生態:
2.HDFS描述:HDFS是google的GFS的開源複製,HDFS的架構如:
1) NameNode:管理HDFS的名稱空間,管理資料區塊映射資訊,配置副本策略,處理用戶端讀寫請求。
2) StandbyNameNode:NameNode的熱備,定期合并fsimage和fsedits,推送給NameNode,當Active NameNode出現故障時,快速切換為新的 Active NameNode。
3) Datanode:儲存實際的資料區塊,執行資料區塊讀/寫。
4) Client:檔案切分,與NameNode互動,擷取檔案位置資訊,與DataNode互動,讀取或者寫入資料,管理HDFS,訪問HDFS。
優點:高容錯性;適合批處理;適合大資料處理;流式檔案訪問;可構建在廉價機器上。
缺點:低延遲資料訪問,比如毫秒級,低延遲與高吞吐率;小檔案存取,佔用NameNode大量記憶體,尋道時間超過讀取時間;並發寫入、檔案隨機修改一個檔案只能有一個寫 者,僅支援append。
3.HDFS的資料形式
檔案被切分成固定大小的資料區塊,預設資料區塊大小為64MB,可配置塊的大小,若檔案大小不到64MB,則單獨存成一個block。一個檔案儲存體方式按大小被切分成若干個block,儲存到不同節點上,預設情況下每個block有三個副本。
HDFS資料寫流程:
HDFS資料讀流程:
4.MapReduce:是google的MapReduce的開源複製,適合PB級以上海量資料的離線處理。
MapReduce的計算架構:
5.YARN:Hadoop 2.0新增系統,負責叢集的資源管理和調度,使得多種計算架構可以運行在一個叢集中,內建了多種多使用者調度器,適合共用叢集環境。
YARN架構:
6.HDFS的shell操作:
Hadoop的shell命令在hadoop的bin目錄下,用hdfs命令可以查看HDFS檔案系統中的命令,如:
dfsadmin:在bin目錄下hadoop dfsadmin命令選項如:
dfs:在bin目錄下hadoop dfs命令選項如:
fsck:檢查檔案屬性命令,其操作如:
hadoop學習二:hadoop基本架構與shell操作