目標收益
本次Spark培訓將為大家全面而又深入的介紹Spark、Hadoop平臺的構建流程,涉及Spark、Hadoo系統基礎知識,概念及架構, Spark、Hadoo實戰技巧,Spark、Hadoo經典案例等。
通過本課程實踐,幫助學員對Spark、Hadoo生態系統有一個清晰明了的認識;理解Spark、Hadoo系統適用的場景;掌握Spark、Hadoo等初中級應用開發技能;搭建穩定可靠的Spar、Hadoo k集群,滿足生產環境的標準;了解和清楚大數據應用的幾個行業中的經典案例,包括阿里巴巴,華為等。
培訓對象
各類 IT/軟件企業和研發機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果佳。
學員基礎
了解Linux系統及相關語言環境
課程大綱
Spark
生態介紹
? Mapreduce、storm和spark模型的比較和使用場景介紹
? Spark產生背景
? Spark(內存計算框架)
? SparkSteaming(流式計算框架)
? Spark SQL(ad-hoc)
? Mllib(MachineLearning)
? GraphX(bagel將被代)
? DlinkDB介紹
? SparkR介紹
Spark
安裝部署
? Spark安裝簡介
? Spark的源碼編譯
? Spark Standalone安裝
? Spark Standalone HA安裝
? Spark應用程序部署工具spark-submit
? Spark的高可用性部署
Spark
運行架構和解析
? Spark的運行架構
? 基本術語
? 運行架構
? Spark on Standalone運行過程
? Spark on YARN 運行過程
? Spark運行實例解析
? Spark on Standalone實例解析
? Spark on YARN實例解析
Spark
scala編程
? Scala基本語法
? Scala開發環境搭建
? Scala開發Spark應用程序
? 使用java編程
? 使用scala編程
? 使用python編程
Spark
編程模型和解析
? Spark的編程模型
? Spark編程模型解析
? RDD的特點、操作、依賴關系
? Spark應用程序的配置
Spark Streaming原理和實踐
? Spark Streaming與Strom的區別
? Kafka的部署
? Kafka與Spark Streaming的整合
? Spark Streaming原理
? Spark流式處理架構
? DStream的特點
? Dstream的操作和RDD的區別
? Spark Streaming的優化
? Spark Streaming實例
? 文本實例
? 網絡數據處理
? Kafka+Spark Streaming實現日志的實時分析案例
Spark
SQL原理和實踐
? Spark SQL原理
? Spark SQL的Catalyst優化器
? Spark SQL內核
? Spark SQL和Hive
? Spark SQL的實例和編程
? Spark SQL的實例操作demo
? Spark SQL的編程
? DataFrame架構和原理
? DataFrame支持的統計和數學函數介紹
? 從RDD創建DataFrame
? 從Hive表創建DataFrame
? 從數據源創建DataFrame
Spark的數據源
? Spark與HDFS的整合
? HDFS RDD原理和實現
? Spark與Hbase的整合
? Spark與Cassendera整合
? Hbase RDD的分區讀取
? Hbase RDD的原理和實現
? Spark parallelism RDD的工作機制
Spark 數據挖掘
? Mllib的介紹
? graphX核心原理
? table operator和graph operator區別
? vertices、edges和triplets介紹
? 構建一個graph
? SparkR原理
? SparkR實戰
典型項目
案例實戰
? 基于spark日志分析
? 個性化推薦系統:帶你揭開其神秘面紗
? 在線投放引擎
? 揭開淘寶點擊推薦系統的神秘面紗
? 淘寶數據服務架構—實時計算平臺
Spark的優化
? 序列化優化——Kryo
? Spark參數優化實戰
? Spark 任務的均勻分布策略
? Partition key傾斜的解決方案
? Spark任務的監控
? GC的優化
? Spark Streaming吞吐量優化
? Spark RDD使用內存的優化策略
? Spark在使用中的感想分享