標籤:
基於Hadoop2.0、YARN技術的大資料高階應用實戰(Hadoop2.0\YARN\MapReduce\資料採礦\項目實戰)
課程分類:Hadoop
適合人群:進階
課時數量:81課時
用到技術:基於協同過濾的推薦系統、基於HBase的爬蟲調度庫
涉及項目:銀行人民幣查詢系統、HBase編程實踐及案例分析
諮詢qq:1840215592
課程內容簡介
本課程基於《基於Greenplum Hadoop分布式平台的大資料解決方案》Hadoop部分的基礎課程來進行擴充延伸,主要內容分為以下四部分:
一、對Hadoop最新的2.0系列版本和YARN進行介紹,掌握最前沿的Hadoop技術架構。
二、針對MapReduce和HBase的高階應用做深入的講解和實戰演練。
三、講解之前基礎篇中未涉及的Hadoop子項目,包括Cassandra、Sqoop、Avatar、Mahout、Avro、Flume等
四、Hadoop與R結合應用、Hadoop原始碼導讀基礎及最後的綜合實戰
Hadoop2.0、YARN技術大資料視頻教程詳細介紹:http://www.ibeifeng.com/goods-440.html
適合對象:
1、要求具有一定的Linux和Java基礎
2、要求具有一定SQL語言基礎
3、學習完《基於Greenplum Hadoop分布式平台的大資料解決方案》Hadoop部分的基礎課程
課程大綱
Hadoop高階應用課程(81課時)
Hadoop 2.0(6課時)
Hadoop 2.0產生背景
Hadoop 2.0基本構成
HDFS 2.0
MapReduce 2.0
Hadoop 2.0安裝配置
叢集測試
YARN資源管理系統(4課時)
YARN產生背景
YARN基本設計思想
YARN基本架構
YARN工作流程
YARN通訊協定
YARN容錯
YARN資源調度機制
YARN支援的計算架構(Storm,Tez,Spark)(11課時)
以YARN為核心的生態系統
Storm基本概念
Storm流式計算架構
基於YARN的Storm架構
YARN-Storm部署
Storm On YARN服務
Apache Tez介紹
Tez特點
Tez資料處理引擎
DAGAppMaster實現
Tez最佳化機制
Tez應用情境
Tez部署
什麼是Spark
Spark生態系統
Spark的核心--RDD和Lineage
RDD的儲存、容錯機制、內部設計及資料模型
Spark調度架構
Spark的分布式部署方式
基於Mesos的Spark模式
基於YARN的Spark模式
Spark的獨立模式部署
Spark的YARN模式部署
MapReduce多語言編程(5課時)
MapReduce編程介面
Java編程介面執行個體解析
Hadoop Streaming實現方式
Hadoop Streaming編程實戰(C++,PHP,PYTHON)
Hadoop Streaming原理剖析
Hadoop Pipes的編程執行個體
Hadoop Pipes的原理剖析
MapReduce高階實現(14課時)
複雜的MapReduce應用
K-means聚類、貝葉斯分類等
工作流程編程執行個體及原理剖析
JobControl、ChainMapper/ChainReducer
Hadoop工作流程引擎
常用MapReduce最佳化技巧
配置多個reducer
設定Stream的處理格式
控制分區的大小
避免分區
輸入格式:文本輸入、多種類型輸入
輸出控制:多個輸出、延遲輸出
實戰:資料分區
MapReduce進階特性
計數器、內建計數器
執行個體:使用者自訂計數器
MapReduce部分排序的實現
執行個體:MapReduce全排序
Terasort演算法分析
執行個體:MapReduce實現二次排序
串連、Map端串連的實現
執行個體:Reduce端串連
連線類型、串連策略介紹
重分區串連架構的實現
複製串連架構的實現
執行個體:半串連
全域作業參數/資料檔案傳遞
HBase編程實踐及案例分析(10課時)
HBase基礎精講
HBase Java編程執行個體
HBase多語言編程
Thrift安裝、服務配置
HBase C++編程執行個體
HBase Python編程執行個體
HBase MapReduce編程基礎
實戰:HBase MapReduce編程
Hbase案例:OpenTSDB的實現
基於HBase的爬蟲調度庫
基於HBase的爬蟲索引庫
銀行人民幣查詢系統
Sqoop(6課時)
Sqoop產生背景、基本
Sqoop1和Sqoop2架構及特點
Sqoop1安裝配置(版本1.4.4)
Sqoop匯入介紹
實戰:從mysql匯入資料到HDFS
實戰:從mysql匯入資料到Hive
Sqoop匯出介紹
實戰:將Hive資料匯出到Mysql
Sqoop與Hbase結合
Sqoop作業操作
Sqoop作業安全配置
Sqoop2安裝配置(版本1.99.3)
Sqoop2使用綜合實戰
Flume日誌收集系統(7課時)
Flume概念和特點
Flume OG架構、組成、特點、容錯機制設計
日誌收集系統綜合比較
Flume NG架構、核心概念
Flume OG的安裝
Flume OG的配置(Web端、Flume shell)
Flume NG的安裝配置、測試
Flume NG模組配置(Source、Channel、Sink)
Flume NG配置實戰分析
Avro資料序列化系統(1課時)
Avro介紹
Avro特性、主要作用
RPC使用Avro
Avro與其他序列化系統的區別
Mahout資料採礦工具(10課時)
資料採礦概念、系統組成
資料採礦常用方法及演算法(迴歸分析、分類、聚類等)
資料採礦分析工具
Mahout支援的演算法
Mahout起源和特點
Mahout安裝、配置及測試
實戰:Mahout K-means群集
Mahout實現Canopy演算法
Mahout實現分類演算法
實戰:Mahout羅吉斯迴歸分類預測
實戰:Mahout樸素貝葉斯分類
推薦系統的概念及分類
協同過濾推薦演算法概念、分類及應用
實戰:實現基於Mahout的電影推薦系統
Hadoop綜合實戰-文本挖掘項目(7課時)
文本挖掘的概念及應用情境
項目背景
項目流程
中文分詞技術
庖丁分詞器的使用
MapReduce並行分詞程式的設計與實現
Pig劃分資料集
Mahout構建樸素貝葉斯文本分類器
模型應用-計算使用者偏好類別
Hadoop2.0、YARN技術大資料視頻教程