了解大數據
Spark概述
Python概述
PySpark概述
使用彈性分布式數據集框架分發(fā)數據
使用Spark API運算符分布計算
設置Python和Spark
設置PySpark
針對Spark使用Amazon Web Services(AWS)EC2實例
設置數據塊
設置AWS EMR集群
學習Python編程的基礎知識
Python入門
使用Jupyter Notebook
使用變量和簡單的數據類型
使用列表
使用 if 語句
使用用戶輸入
處理while循環(huán)
實現函數
使用類
處理文件和異常
處理項目、數據、API
學習Spark DataFrame的基礎知識
Spark DataFrames入門
用Spark實現基本操作
使用Groupby和聚合操作
使用時間戳和日期
進行Spark DataFrame項目練習
了解用MLlib進行機器學習
使用MLlib、Spark和Python進行機器學習
了解回歸
學習線性回歸理論
實現回歸評估代碼
進行線性回歸示例練習
學習Logistic回歸理論
實現一個Logistic回歸代碼
進行Logistic回歸示例練習
了解隨機森林(Random Forests)和決策樹(Decision Trees)
學習樹方法論(Tree Methods Theory)
實現決策樹和隨機森林代碼
進行隨機森林分類示例練習
使用K均值聚類
了解K均值聚類理論
實現K均值聚類代碼
進行群集示例練習
使用推薦系統(tǒng)
實現自然語言處理
理解自然語言處理(NLP)
NLP工具概述
進行NLP示例練習
在Python中用Spark進行流式處理
用Spark進行流式處理概述 |