標籤:
Hadoop開源軟體及生態系統:方向hadoop的營運,hadoop的開發按使用者規格或為開源軟體做二次開發。
雲端運算與大資料:狹義的雲端運算與廣義的雲端運算;三層模型;
Hadoop的起源:Doug Cutting,google核心技術,
Google vs Hadoop
Hadoop的特點:開源社區的支援,Distributed File System的備份恢複機制以及MapReduce的任務監控保證了分散式處理的可靠性,並且它的架構可以運行在任何普通的pc上,不論是儲存的可擴充還是計算的可擴充都是hadoop的設計根本,Distributed File System的高效資料互動實現,以及MapReduce結合的localdata的處理模式,為高效處理海量資訊做了基礎準備。
Hadoop架構簡介:hadoop的核心:hdfs組件,MapReduce組件,Common組件,common組件是hadoop基礎,提供了一些hadoop io,壓縮,rpc通訊,序列化等功能,同時,common組件可以利用jni方法調用c/c++編寫的native庫,加速資料壓縮,資料校正等;hdfs採用流式資料訪問機制,可以用來儲存超大檔案,hdfs叢集擁有兩種節點,名稱節點namenode,資料節點datanode,名稱節點在記憶體中儲存著檔案資料區塊的映像資訊和整個檔案系統的名字空間,資料節點負責儲存和讀取資料檔案。Hdfs組件,mapreduce組件(jobtracker-tasktracker-maptask,reducetask,word count應用);mapreduce的執行過程。
Hadoop生態系統:
Hadoop發行版:Cloudera CDH,Hortonworks HDP,intel Distribution,IBM BigInsight。解決繁瑣的依賴關係等。
Hadoop版本選擇:hadoop 1.0,2.0,其中1.0包含0.20.x,0.21.x, 0.22.x,其中0.20.x最後演化為1.0.x,後兩者則加上了NameNode HA等重大特性。Hadoop2.0版本分別為0.23.x,2.x,他們不同於hadoop1.0,是一套全新的架構,含有HDFS Federation和YARN兩個系統,相比於0.23.x,2.x增加了NameNode HA,Wire-compatibility的特性。
Hadoop開源軟體及生態系統