Spark 基礎
【理論部分】Java Lambda語法簡介 、Spark基礎原理與運行架構、Spark部署方式
【實戰部分】Spark開發環境搭建、使用Spark Web UI、如何將Spark程序運行到YARN上
【課程目標】掌握Spark基本原理,能夠搭建Spark開發和運行環境。
Spark 程序設計
【理論部分】Spark編程模型、內存彈性分布式數據集的工作原理和機制、Spark RDD transform、持久化、checkpoint、容錯與性能優化
【實戰部分】如何利用intellij idea開發一個spark程序并運行到集群中、如何利用spark設計電影受眾分析程序
【課程目標】掌握常見的Spark API,熟練使用Spark開發大數據分析程序。
Spark SQL
【理論部分】流式計算基礎、spark streaming基礎原理 、基礎API介紹(包括map,filter,flatMap、foreachRDD,saveAsTextFile等)和高級API介紹(window, transform和mapWithState),Redis介紹
【實戰部分】利用Spark Streaming讀取HDFS中的數據,經統計(按照window統計)后寫入HDFS:利用Spark Streaming讀取HDFS中的數據,經統計后寫入Redis和HBase:利用mapWithState實現wordcount
【課程目標】掌握Spark Streaming工作原理及常見的API,能夠使用Spark Streaming編寫流式實時計算程序。
Spark Streaming進階
【理論部分】保存kafka offset并恢復、spark streaming容錯機制、spark streaming調優方法、structured streaming原理及關鍵API
【實戰部分】利用Spark Streaming+kafka+redis實現“用戶手機app行為分析系統”、實現streuctured streaming版本的wordcount
【課程目標】掌握Spark Streaming調優方法和高級編程技巧,能夠使用高級API編寫更加魯棒的分布式流式計算程序。
Spark MLlib數據分析挖掘程序
【理論部分】數據挖掘與機器學習基礎知識,以及機器學習案例、Spark MLib分類、聚類、推薦等算法,用戶畫像系統設計。
【實戰部分】回歸預測和局部加權線性回歸預測算法、近鄰KNN預測分析的算法、協同過濾算法的Spark實現技術應用、決策樹分類分析挖掘算法、邏輯回歸分類分析挖掘算法、貝葉斯分類分析挖掘算法等,互聯網用戶性別預測。
【課程目標】掌握常見的機器學習算法,能夠使用Spark MLLib工具包解決機器學習問題。 |