Spark簡介及環(huán)境搭建
l Spark 簡介
l Spark 環(huán)境搭建(Ubuntu , 分布式集群).使用的是 Hadoop 2.7.3 和 Spark 2.0.1 版本
基于Python的Spark 編程
l 基于 Python 的 Spark 常用函數(shù)及其使用方法。map/reduce/groupByKey/reduceByKey/filter/ flatMap/saveAsTextFile/join 等
l 基于 Python 的 Spark 編程樣例。通過基本的統(tǒng)計分析和數(shù)據(jù)處理樣例說明該怎樣進行基于 Python 的 Spark 編程
Spark 和機器學(xué)習(xí)
l MLLib 全方位介紹 。MLLib 包含的各種算法函數(shù)的介紹。個別算法根據(jù)情況可以講解源代碼
l MLLib 編程樣例 (回歸預(yù)測 , 聚類 , 關(guān)聯(lián)規(guī)則, 神經(jīng)網(wǎng)絡(luò)預(yù)測等)
云環(huán)境下的 Spark 以及預(yù)測的簡介
l Spark 在阿里云的使用
l Spark 在 AWS 亞馬遜云的使用
l 預(yù)測方法簡介:包括時間序列預(yù)測,機器學(xué)習(xí)方法進行預(yù)測(GBDT, 邏輯回歸等) |