第一部份: 生產項目的演進和改造思路
1. 三大生產項目(離線日志分析、企業預警實時監控、安全日志上報之Spark Streaming+Kafka保證數據零丟失)業務介紹
2. 離線分析和實時分析的場景介紹
3. 改造思路
4. Hadoop、Spark、Hbase、Kafka、ElasticSearch等項目軟件選型
第二部份: 手把手從零搭建開發環境
1. Hadoop、Spark、Hbase、Kafka、ElasticSearch軟件安裝
2. IDEA安裝
3. Maven工程構建
4. IDEA調試Spark項目
5. Spark源碼編譯
6. Spark作業提交方式
第三部份:安全日志上報之Spark Streaming+Kafka保證數據零丟失(一)
1. Spark Streaming 整合Kafka的幾種方式對比
2. 徹底搞懂Kafka 消息檢索原理
3. 使用Spark Streaming進行Kafka 的Offset管理(Checkpoints、Hbase、Zookeeper、Kafka)
4. Spark Streaming保存offset到zookeeper亂碼處理
第四部份:安全日志上報之Spark Streaming+Kafka保證數據零丟失(二)
1. 實時作業的at most once、at least once、exactly once語義
2. 方案選型和對比(四種方案)
3. Spark Streming + Kafka 如何獲取每條消息的offset、partition以及每批次的from offset、end offset、count。
4. Spark Streming + Kafka(消費) + Kafka(清洗后入)方案和代碼實操
第五部份: 安全日志上報之Spark Streaming+Kafka保證數據零丟失(三)
1. SQL on Hbase 實現的幾種方式
2. Spark Streming + Kafka(消費) + Hbase(清洗后入)實現exactly once語義方案
3. 代碼實操
4. SQL on Hbase 性能優化
第六部份: 安全日志上報之Spark Streaming+Kafka保證數據零丟失(四)
1. Spark 整合Elasticsearch要點和案例實操
2. Spark Streming + Kafka(消費) + Elasticsearch實現exactly once語義方案
3. Spark Streming + Kafka(消費) +Oracle實現exactly once語義方案
4. 代碼實操
5 Spark 整合Elasticsearch性能優化
第七部份: 離線日志分析項目(一)
1. 第一版問題分析
2. ETL流程分析
3. Flume+Nginx整合, 數據采集,日志分割
4. Flume如何實現負載均衡和高可用
5. 日志收集系統架構(可用性、可靠性、可擴展性)
第八部份: 離線日志分析項目(二)
1. 文件存儲格式對比
2. Spark 整合 Hive
3. 第二版項目方案的演進和代碼實操
4. 解決小文件問題
5. 數據質量監控
第九部份: 離線日志分析項目(三)
1. 理解Spark的Stage劃分,如何定位導致數據傾斜代碼,數據傾斜的場景和需要注意的地方
2. 廣播變量使用的坑
3. Spark整合Oracle的表需要注意的地方
4. Spark作業調度異常問題案例匯總
第十部份: 企業預警實時監控
1. 第一版: 使用Spark Streaming清洗數據(Hive動態分區等) + 代碼實操
2. 第一版存在的問題分析
3. 第二版項目方案的演進和代碼實操
4. 中文亂碼問題解決
第十一部份: 通用解決方案
1. Hbase 二級索引
2. Hbase + ElasticSearch整合, 實現海量數據查詢
3. 不通場景下, Spark 寫數據到Oracle的方案(集群和Oracle服務器網絡是否連通等. )
4. Driver內存調優 |