標籤:大資料
第1章 初探大資料
本章將介紹為什麼要學習大資料、如何學好大資料、如何快速轉型大資料崗位、本項目實戰課程的內容安排、本項目實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹項目中涉及的Hadoop、Hive相關的知識
第2章 Spark及其生態圈概述
Spark作為近幾年最火爆的大資料處理技術,是成為大資料工程師必備的技能之一。本章將從如下幾個方面對Spark進行一個宏觀上的介紹:Spark產生背景、特點、發展史、Databricks官方調查結果、Spark與Hadoop的對比、Spark開發語言及運行模式介紹 ...
第3章 實戰環境搭建
工欲善其事必先利其器,本章講述Spark源碼編譯、Spark Local模式運行、Spark Standalone模式運行
第4章 Spark SQL概述
Spark SQL面世已來,它不僅接過了Shark的接力棒,繼續為Spark使用者提供高效能SQL on Hadoop解決方案,還為Spark帶來了通用、高效、多元一體的結構化資料處理能力。本章將從Spark SQL前世今生、SQL on Hadoop架構、Spark SQL概述、願景、架構,這幾個角度進行展開講解...
第5章 從Hive平滑過渡到Spark SQL
Hive是SQL-on-Hadoop的解決方案和預設的標準,如何將資料處理從Hive過渡到Spark SQL上來是我們必須要掌握的。本章我們將講解在Spark中操作Hive中的資料幾種方式
第6章 DateFrame&Dataset
DataFrame&Dataset是Spark2.x中最核心的編程對象,Spark2.x中的子架構能夠使用DataFrame或Dataset來進行資料的互動操作。本章將從DataFrame的產生背景、DataFrame對比RDD、DataFrame API操作等方面對DataFrame做詳細的編程開發講解
第7章 External Data Source
Spark SQL中的核心功能,可以使用外部資料源非常方便的對儲存在不同系統上的不同格式的資料進行操作。本章將講解如何使用外部資料源來操作Hive、Parquet、MySQL中的資料以及綜合使用
第8章 SparkSQL願景
本章將講解Spark的願景:寫更少的代碼、讀更少的資料、讓最佳化器自動最佳化程式
第9章 慕課網日誌實戰
本章使用Spark SQL對慕課網主站的訪問日誌進行各個維度統計分析操作,涉及到的過程有:資料清洗、資料統計、統計結果入庫、資料的可視化、調優及Spark on YARN。通過本實戰項目將Spark SQL中的知識點融會貫通,達到舉一反三的效果 ...
第10章 Spark SQL擴充和總結
本章將列舉Spark SQL在工作中經常用到的方方方面的總結
:百度網盤下載
原文地址:http://linyunbbs.com/thread-2114-1-1.html
日誌分析為例進入大資料 Spark SQL 的世界 共10章