大資料-有關hdfs的學習

來源:互聯網
上載者:User

標籤:hadoop

有關hdfs的連結

http://hadoop.apache.org/docs/current/api/ (Apache Hadoop Main 2.7.1 API)
http://slaytanic.blog.51cto.com/2057708/1101111/ (hdfs-site.xml 配置項說明)
http://archive-primary.cloudera.com/cm5/installer/5.4.3/ (cloudera-manager-installer.bin)
http://archive-primary.cloudera.com/cdh5/ (cloudera 官方庫)
http://www.cloudera.com/content/cloudera/en/home.html (cloudera 官方網站)
http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html (hdfs shell 命令)
http://www.cnblogs.com/xia520pi/archive/2012/05/28/2520813.html (參考文章)

HDFS簡介

HDFS(Hadoop Distributed File System)是Hadoop項目的核心子項目,是分散式運算中資料存放區管理的基礎,是基於流資料模式訪問和處理超大檔案的需求而開發的,可以運行於廉價的商用伺服器上。它所具有的高容錯、高可靠性、高可擴充性、高獲得性、高吞吐率等特徵為海量資料提供了不怕故障的儲存,為超大資料集(Large Data Set)的應用處理帶來了很多便利。

HDFS基礎概念

1 資料區塊(block)
HDFS(Hadoop Distributed File System)預設的最基本的儲存單位是64M的資料區塊。
和普通檔案系統相同的是,HDFS中的檔案是被分成64M一塊的資料區塊儲存的。
不同於普通檔案系統的是,HDFS中,如果一個檔案小於一個資料區塊的大小,並不佔用整個資料區塊儲存空間。
2 NameNode和DataNode
HDFS體繫結構中有兩類節點,一類是NameNode,又叫”中繼資料節點”;另一類是DataNode,又叫”資料節點”。這兩類節點分別承擔Master和Worker具體任務的執行節點。
2.1 中繼資料節點用來管理檔案系統的命名空間
其將所有的檔案和檔案夾的中繼資料儲存在一個檔案系統樹中。
這些資訊也會在硬碟上儲存成以下檔案:命名空間鏡像(namespace image)及修改日誌(edit log)
其還儲存了一個檔案包括哪些資料區塊,分布在哪些資料節點上。然而這些資訊並不儲存在硬碟上,而是在系統啟動的時候從資料節點收集而成的。
2.2 資料節點是檔案系統中真正儲存資料的地方。
用戶端(Client)或者中繼資料資訊(NameNode)可以向資料節點請求寫入或者讀出資料區塊。
其周期性的向中繼資料節點回報其儲存的資料區塊資訊。
2.3 從中繼資料節點(secondary namenode)
從中繼資料節點並不是中繼資料節點出現問題時候的備用節點,它和中繼資料節點負責不同的事情。
其主要功能就是周期性將中繼資料節點的命名空間鏡像檔案和修改日誌合并,以防記錄檔過大。這點在下面會相信敘述。
合并過後的命名空間鏡像檔案也在從中繼資料節點儲存了一份,以防中繼資料節點失敗的時候,可以恢複。
3 檔案系統命名空間映像檔案及修改日誌
1)當檔案系統用戶端(Client)進行寫操作時,首先把它記錄在修改日誌中(edit log)
2)中繼資料節點在記憶體中儲存了檔案系統的中繼資料資訊。在記錄了修改日誌後,中繼資料節點則修改記憶體中的資料結構。
3)每次的寫操作成功之前,修改日誌都會同步(sync)到檔案系統。
4)fsimage檔案,也即命名空間映像檔案,是記憶體中的中繼資料在硬碟上的checkpoint,它是一種序列化的格式,並不能夠在硬碟上直接修改。
5)同資料的機制相似,當中繼資料節點失敗時,則最新checkpoint的中繼資料資訊從fsimage載入到記憶體中,然後逐一重新執行修改日誌中的操作。
6)從中繼資料節點就是用來協助中繼資料節點將記憶體中的中繼資料資訊checkpoint到硬碟上的

checkpoint的過程如下:
1.從中繼資料節點通知中繼資料節點產生新的記錄檔,以後的日誌都寫到新的記錄檔中。
2.從中繼資料節點用http get從中繼資料節點獲得fsimage檔案及舊的記錄檔。
3.從中繼資料節點將fsimage檔案載入到記憶體中,並執行記錄檔中的操作,然後產生新的fsimage檔案。
4.從中繼資料節點獎新的fsimage檔案用http post傳回中繼資料節點
5.中繼資料節點可以將舊的fsimage檔案及舊的記錄檔,換為新的fsimage檔案和新的記錄檔(第一步產生的),然後更新fstime檔案,寫入此次checkpoint的時間。
6 .這樣中繼資料節點中的fsimage檔案儲存了最新的checkpoint的中繼資料資訊,記錄檔也重新開始,不會變的很大了。

著作權聲明:本文為博主原創文章,未經博主允許不得轉載。

大資料-有關hdfs的學習

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.