第一部份: 生產(chǎn)項目的演進和改造思路
1. 三大生產(chǎn)項目(離線日志分析、企業(yè)預(yù)警實時監(jiān)控、安全日志上報之Spark Streaming+Kafka保證數(shù)據(jù)零丟失)業(yè)務(wù)介紹
2. 離線分析和實時分析的場景介紹
3. 改造思路
4. Hadoop、Spark、Hbase、Kafka、ElasticSearch等項目軟件選型
第二部份: 手把手從零搭建開發(fā)環(huán)境
1. Hadoop、Spark、Hbase、Kafka、ElasticSearch軟件安裝
2. IDEA安裝
3. Maven工程構(gòu)建
4. IDEA調(diào)試Spark項目
5. Spark源碼編譯
6. Spark作業(yè)提交方式
第三部份:安全日志上報之Spark Streaming+Kafka保證數(shù)據(jù)零丟失(一)
1. Spark Streaming 整合Kafka的幾種方式對比
2. 徹底搞懂Kafka 消息檢索原理
3. 使用Spark Streaming進行Kafka 的Offset管理(Checkpoints、Hbase、Zookeeper、Kafka)
4. Spark Streaming保存offset到zookeeper亂碼處理
第四部份:安全日志上報之Spark Streaming+Kafka保證數(shù)據(jù)零丟失(二)
1. 實時作業(yè)的at most once、at least once、exactly once語義
2. 方案選型和對比(四種方案)
3. Spark Streming + Kafka 如何獲取每條消息的offset、partition以及每批次的from offset、end offset、count。
4. Spark Streming + Kafka(消費) + Kafka(清洗后入)方案和代碼實操
第五部份: 安全日志上報之Spark Streaming+Kafka保證數(shù)據(jù)零丟失(三)
1. SQL on Hbase 實現(xiàn)的幾種方式
2. Spark Streming + Kafka(消費) + Hbase(清洗后入)實現(xiàn)exactly once語義方案
3. 代碼實操
4. SQL on Hbase 性能優(yōu)化
第六部份: 安全日志上報之Spark Streaming+Kafka保證數(shù)據(jù)零丟失(四)
1. Spark 整合Elasticsearch要點和案例實操
2. Spark Streming + Kafka(消費) + Elasticsearch實現(xiàn)exactly once語義方案
3. Spark Streming + Kafka(消費) +Oracle實現(xiàn)exactly once語義方案
4. 代碼實操
5 Spark 整合Elasticsearch性能優(yōu)化
第七部份: 離線日志分析項目(一)
1. 第一版問題分析
2. ETL流程分析
3. Flume+Nginx整合, 數(shù)據(jù)采集,日志分割
4. Flume如何實現(xiàn)負載均衡和高可用
5. 日志收集系統(tǒng)架構(gòu)(可用性、可靠性、可擴展性)
第八部份: 離線日志分析項目(二)
1. 文件存儲格式對比
2. Spark 整合 Hive
3. 第二版項目方案的演進和代碼實操
4. 解決小文件問題
5. 數(shù)據(jù)質(zhì)量監(jiān)控
第九部份: 離線日志分析項目(三)
1. 理解Spark的Stage劃分,如何定位導(dǎo)致數(shù)據(jù)傾斜代碼,數(shù)據(jù)傾斜的場景和需要注意的地方
2. 廣播變量使用的坑
3. Spark整合Oracle的表需要注意的地方
4. Spark作業(yè)調(diào)度異常問題案例匯總
第十部份: 企業(yè)預(yù)警實時監(jiān)控
1. 第一版: 使用Spark Streaming清洗數(shù)據(jù)(Hive動態(tài)分區(qū)等) + 代碼實操
2. 第一版存在的問題分析
3. 第二版項目方案的演進和代碼實操
4. 中文亂碼問題解決
第十一部份: 通用解決方案
1. Hbase 二級索引
2. Hbase + ElasticSearch整合, 實現(xiàn)海量數(shù)據(jù)查詢
3. 不通場景下, Spark 寫數(shù)據(jù)到Oracle的方案(集群和Oracle服務(wù)器網(wǎng)絡(luò)是否連通等. )
4. Driver內(nèi)存調(diào)優(yōu) |