
????????本課程主要講解Spark技術,借助Spark對外提供的Python接口,使用Python語言開發。涉及到Spark內核原理、Spark基礎知識及應用、Spark基于DataFrame的Sql應用、機器學習及深度學習等內容。由淺到深的帶大家深入學習大數據領域火的項目Spark。幫助大家進入大數據領域,抓住大數據浪潮的尾巴。
? ? 軟件版本:?? ??
???內容涉及:???
-
pyspark 基礎模塊
-
pyspark.sql?模塊
-
pyspark.ml?基于DataFrame的機器學習模塊
-
pyspark.mllib package?基于RDD的機器學習模塊
-
中間還會涉及到云計算中的docker容器技術,課程的學習環境就是使用Docker三個容器搭建的分布式環境
-
pyspark中Numpy、Pandas、Scikit-learn的互操作和相互對比