第一部份: 數據平臺整體介紹
(1) 數據平臺整體介紹
(2) 各種異構數據清洗加載
(3) 任務調度系統設計
(4) 業務快速迭代過程中,數據模型如何構建
(5) 大數據平臺基本組件以及技術選型
第二部份:環境準備
(1) Hadoop安裝配置管理
(2) spark安裝配置管理
(3) sqoop,flume安裝配置
(4) 數據壓縮存儲格式,幾種數據存儲格式對比
第三部份: 數據同步收集(一)
(1) 如何從rdbms同步數據到hdfs
(2) 自己開發ETL 數據抽取工具
(2) sqoop的使用
(3) 后臺日志,nginx日志等數據的清洗規范化,介紹 hadoop streaming,mapreduce,
使用spark/Scala模式匹配 等方式清洗日志
(4) 特殊格式日志如何清洗
第四部份: 數據同步收集(二)
(1) 異地跨網段數據同步清洗方案
(2) 超大數據量日志同步清洗,并保證數據的準確性
(3) 同步數據小文件過多如何處理
(4) 歷史數據歸檔處理,冷熱數據存儲
第五部份:數據同步收集(三)
(1) 準小時級別數據更新處理
(2) 使用spark streaming,kafka 等實時處理后臺,nginx 日志
(3) mySQL binlog實時日志處理
第六部份:任務調度系統設計
(1) 定時任務設計以及處理
(2) 觸發,依賴模式的任務調度系統設計
(3) 調度系統中如何做到ETL任務依賴關系自動解析
(4) 手把手教你實現一個任務調度系統
第七部份:調度系統選擇
(1) oozie,azkaban,airflow等調度系統介紹
(2) airbnb airflow基本架構設計
(3) Airflow 任務調度系統配置和使用
(4) Airflow 高級使用
(5) Airflow 二次開發,自定義某些功能模塊
第八部份: ETL任務系統設計
(1) 數據抽取,加載工具的實現
(2) ETL任務模板的實現
(3) ETL任務元數據設計
(4) 企業級數據倉庫模型設計:維度建模,分層,寬表設計等
第九部份:adhoc查詢以及查詢平臺
(1) presto,impala,spark-sql 的使用
(2) hue搭建以及使用
(3) zeppelin搭建以及使用,zeppelin中調試spark,pyspark等
(5) 更快的查詢,毫秒級的響應速度之elasticsearch
第十部份:數據羅盤
(1) 數據羅盤常圖表樣式
(2) airbnb開發的Superset 安裝以及使用
(3) Superset架構介紹以及使用案例
(4) Superset簡單定制化開發
第十一部份:數據安全
(1) 從hdfs層面來空值數據的訪問權限
(2) 如何保障敏感表,敏感字段的安全性
(3) 應用層面,查詢服務層來保障安全
第十二部份:大數據平臺監控
(1) etl任務監控,數據質量監控
(2) etl作業日志,yarn日志解析以及監控
(3) 數據量增長,數據量未來發展準確預估
(4) 借助對象存儲,把冷熱數據分離處理
|