當下是大數據時代,為構建大數據平臺,技術人員需要對分布式計算平臺有一定深入的理解和應用。Apache Spark 作為MapReduce的新一代繼承者。 是對map reduce從性能,易用性和復雜分析優化的強大的開源數據處理引擎。Spark框架支持流式數據處理, 復雜迭代算法,比傳統Hadoop?MapReduce 程序快100倍。
Python語言時當下數據領域的瑞士軍刀,但是作為一門腳本語言python先天只能在一臺機器上發展,不適合分析大數據,因此需要其他大數據軟件來處理,Spark雖然是由Scala編寫,但也提供了Pyspark,讓熟悉Python者能夠輕易熟悉操作大數據。
第一部份.spark介紹
hadoop、spark集群環境搭建
pyspark開發環境搭建
spark 1.x和2.x的對比
第二部份.pySpark核心編程模型
RDD、transformation、action
第三部份.pySpark核心編程實戰
lineage、容錯處理、寬依賴與窄依賴
第四部份.Spark內核詳解剖析
Spark術語解釋、集群概覽、核心組件、數據本地性
第五部份.spark任務調度詳解
RDD任務調度(DAGScheduler ,TaskScheduler)、Task細節、廣播變量、累加器
第六部份.spark工程經驗和性能調優
第七部份.spark SQL 詳解
DataFrame、外部數據源API、與Spark其他組件的交互、
第八部份.spark sql編程實戰
Catalyst查詢優化器 、Tungsten 優化
第九部份.spark streaming 開發
Dstream、數據源、 容錯
第十部份.spark運維技能
|