標籤:
Hadoop是一個分布式系統基礎架構,由Apache基金會開發。使用者可以在不瞭解分布式底層細節的情況下,開發分布式程式。充分利用叢集的威力高速運算和儲存。Hadoop實現了一個Distributed File System(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上。而且它提供高傳輸率(high throughput)來訪問應用程式的資料,適合那些有著超大資料集(large data set)的應用程式。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streaming access)檔案系統中的資料。
Hadoop 是一個能夠對大量資料進行分散式處理的軟體架構。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和儲存會失敗,因此它維護多個工作資料副本,確保能夠針對失敗的節點重新分配處理。Hadoop 是高效的,因為它以並行的方式工作,通過平行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級資料。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
Hadoop帶有用Java 語言編寫的架構,因此運行在 Linux 生產平台上是非常理想的。本課程的講解是採用linux平台進行類比講解,完全基於真實情境進行類比現實
亮點一:課程全面升級 本課程是原熱門課程《深入淺出Hadoop實戰開發》和《Hadoop應用開發實戰》的升級版,在課程內容上,加入了更多hadoop的新特性,比如namenode HA,hdfs federation, Yarn等。Storm作為全新的內容被引入到課程中。在課程使用的案例中,不僅沿用和強化了老課程的經典應用,同時引入了其他經典的案例。
亮點二:技術點全面,體系完善 本課程在兼顧Hadoop課程知識體系完善的前提下,把實際開發中應用最多、最深、最實用的技術抽取出來,通過本課程,你將達到技術的新高點,進入雲端運算 的美好世界。在技術方面你將徹底掌握基本的Hadoop叢集;Hadoop HDFS原理;Hadoop HDFS基本的命令;Namenode的工作機制;HDFS基本組態管理;MapReduce原理; HBase的系統架構;HBase的表結構;HBase如何使用MapReduce;MapReduce進階編程;Hive入 門;Hive結合MapReduce;Hadoop的叢集安裝;namenode HA;HDFS federation等眾多知識點。
亮點三:基礎+實戰=應用,兼顧學與練 本課程每階段都安排了實戰應用項目,以此方便學生能更快的掌握知識點的應用,如在第一階段,課程結合HDFS應用,講解了圖片伺服器的設計、以及如何 利用Java API去對HDFS操作、在第二階段;課程結合HBase實現微博項目的各種功能,使學員可以活學活用。在第三階段:HBase和MapReduce結合 時下了實現話單查詢與統計系統,在第四階段,Hive實戰部分,通過實戰資料統計系統,使學員在最短的時間內掌握Hive的進階應用程式。
亮點四:講師豐富的電信集團雲平台運作經驗 講師明義擁有豐富的電信集團工作經驗,目前負責雲平台的各方面工作,並擁有多年的企業內部培訓經驗。講課內容完全貼近企業需求,絕不紙上談兵。 hadoop版本:hadoop 2.4.1 hive版本:hive 0.13.1 hbase版本:hbase 0.98.6.1 centos版本:6.5
01,課程介紹,HDFS架構和原理,搭建CentOS開發環境
> Hadoop背景
> HDFS設計目標,應用情境,架構分析
> 使用Virtual安裝CentOS虛擬機器
> 虛擬機器環境配置
02,hdfs單機和叢集的配置安裝
> Hadoop單機版安裝和配置
> Hadoop叢集安裝和配置
> Hadoop命令列和WebUI的使用
03,hdfs應用-雲端儲存系統(1)
> 雲端儲存系統介紹和基本架構
> 搭建Eclipse和Maven開發環境
> 使用Maven建立並配置Struts2應用
> 使用bootstrap搭建UI架構
04,hdfs應用-雲端儲存系統(2)
> 安裝和配置Redis
> 使用者管理模組開發
05,hdfs應用-雲端儲存系統(3)
> gson介紹和使用執行個體
> 實現普通的檔案上傳,刪除,下載
06,hdfs應用-雲端儲存系統(4)
> 實現基於HDFS的上傳,下載和刪除
> HDFS小檔案管理方式:SequenceFile和Har
07,深入hdfs-NameNode和DataNode
> hdfs的架構介紹
> hdfs如何讀寫檔案
> FSImage和EditLog
> Rack Awareness
> hdfs基本管理
08,深入hdfs-HDFS federation
> HDFS節點管理
> HDFS升級和復原
> HDFS Federation
> 如何使用ViewFS
09,namenode HA
> zookeeper配置
> namenode HA(雙機)安裝和配置
10,yarn和mapreduce
> 配置Yarn(單機和叢集)
> MapReduce的工作原理
> 第一個MapRedcue程式
> Yarn命令列工具
11,mapreduce應用-搜尋提示(1)
> 工作原理介紹(Ajax)
> 使用JQuery的AutoComplete控制項搭建UI
12,mapreduce應用-搜尋提示(2)
> 繼承Mapreduce程式
> 使用Redis儲存中間資料
> 如何對增量和全量資料進行統計
> ”潛在好友推薦“演算法介紹
13,mapreduce的採樣工具和partitiion
> 採樣和分區的工作原理
> RandomSampler,InputSampler,IntervalSampler
> TotalOrderPartitioner(全域排序)
14,Map Join和Reduce Join
> Reduce side join
> Map side join
> 如何自訂資料類型
> 如何使用DistributedCache
15,mapreduce應用-PageRank
> PageRank演算法詳細講解
> 如何用mapreduce實現PageRank演算法
16, Hive入門
> Hive的架構
> CLI, Hive Server, HWI介紹
> 配置Hive,使用Mysql儲存中繼資料
> CLI的基本使用
17, hive應用-搜尋提示(1)
> Tomcat日誌解析
> 使用Regex解析Tomcat日誌
> 在查詢中使用Regex
18, hive應用-搜尋提示(2)
> 在hive查詢中調用python指令碼實現Redis插入
19,HQL(1)
> HQL基礎:DDL,DML
> 資料類型:原子與集合
> TextFile的預設編碼及自訂編碼
20,HQL(2)
> Hive查詢
> Regex,基本函數,集合函數,表函數
> 巢狀查詢,case when語句,like和rlike
> Groupby和Having等
21,Hive自訂函數
> 如何編寫自訂函數
> 在自訂函數中串連Redis
> 在自訂函數中使用CacheFile
22,Compression in Hadoop
> Compression in Hadoop介紹
> 在MapReduce和Hive中使用Compression
> 安裝和配置lzo
23,24, HBase入門
> Hbase架構
> Hbase叢集安裝
> 使用HBase Shell
25,26,27,HBase應用 - 話單查詢
> Hbase Java API
> Struts2 and JSP
> Jquery Datatable and Datepicker
28,29,30,HBase應用 - 微博
> 表結構設計
> 關注好友
> 發微博
> 我的首頁
31,32,Storm入門
> Storm架構及原理介紹
> 安裝Storm
> 實現第一個topology
> Storm的grouping
33,Queue spout和DRPC
34,35,storm應用 - 語音話單計費
> 搭建計費topology
> 實現Queue spout和Mysql入庫bolt
> 實現漫遊和長途類型計算
> 計費邏輯的實現
> 整合所有功能到topology中
> 各個功能模組的驗證
升級版:深入淺出Hadoop實戰開發(雲端儲存、MapReduce、HBase實戰微博、Hive應用、Storm應用)