課程目標:
通過本次Hadoop培訓,會對大數據離線計算、實時計算的企業級構架有清晰的理解以及對常用的成熟的大數據開源項目從原理到使用有深入的理解。
實時計算的項目常用組合為Flume(數據采集) + Kafka(高可用高并發分布式消息隊列) + spark streaming(流式計算) + hbase(分布式列式存儲數據庫,億級行百萬列毫秒級查詢)
離線計算項目常用組合為分布式文件存儲HDFS,資源調度器、分布式計算框架MapReduce、數據倉庫Hive。
課程大綱:
第一 部份
【1】
離線計算:
Hadoop大數據生態圈、分布式存儲HDFS、資源管理
大數據生態圈介紹
開源相關項目說明以及每個項目的用途
實時計算整體構架詳解
離線計算整體構架詳解
分布式文件系統HDFS是什么
HDFS的體系結構
HDFS高可用集群原理詳解
HDFS如何使用
資源管理器介紹以及構架
資源管理器核心組件詳解
資源調度器詳解
【2】
離線計算:
Hadoop MapReduce&Hive
分布式計算MapReduce介紹
MapReduce整體流程
MapReduce實例
數據倉庫工具Hive介紹
Hive模型介紹:數據庫、表、分區、高級函數
Hive元數據介紹
第二部份
【1】
實時計算:
數據采集Flume、分布式消息隊列Kafka
實時計算整體構架設計
Flume是什么以及體系結構介紹
Flume組件介紹:agent、source、channel、sink
Flume高可用拓撲介紹
Kafka體系結構詳解
Kafka核心概念
Kafka高可用高并發原理
Kafka生產者消費者
Flume寫入kafka
【2】
實時計算:
spark streaming流式計算、HBase分布式列存儲
spark是什么以及體系結構
彈性分布式數據集RDD
spark streaming流式計算體系結構
spark steaming讀取kafka
spark算子詳解
HBase存儲數據庫體系結構
Hbase的高可用
HBase數據模型詳解
HBase毫秒級查詢