主要內(nèi)容:
1.Spark在Ubuntu虛擬機(jī)上的分布式集群環(huán)境搭建
2.基于Python的Spark編程基礎(chǔ)
3.Spark MLlib的使用(.py文件):回歸預(yù)測(cè)、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)
4.Spark在阿里云的使用(.py文件)
5.Spark在AWS亞馬遜云的使用
6.預(yù)測(cè)算法介紹
課程大綱:
1.Spark入門及生態(tài)體系
概述
Spark生態(tài)
Spark(內(nèi)存計(jì)算框架)
SparkSteaming(流式計(jì)算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel將被取代)
彈性分布式數(shù)據(jù)集(RDD)
2.Python Spark基礎(chǔ)介紹
Spark 編程模型
RDD緩存策略
Spark Python編程入門
PySpark
惰性計(jì)算(Lazy Evaluation)
流水線(Pipelines)
3.分布式集群搭建
Spark-1.6.1、Hadoop-2.6.4、VMware Ubuntu分布式集群搭建全過程
Ubuntu基本環(huán)境配置
集群安裝準(zhǔn)備
安裝配置Hadoop
安裝配置Spark
4.基于Python的Spark編程實(shí)戰(zhàn)
概述
連接Spark
初始化Spark
使用命令行
彈性分布式數(shù)據(jù)集(RDD)
RDD操作
RDD持久化
在集群上部署
用Python編寫的一個(gè)簡(jiǎn)單Spark應(yīng)用
5.Spark MLlib的使用
機(jī)器學(xué)習(xí)概念
Spark MLlib介紹
Spark MLlib架構(gòu)解析
MLlib的算法庫分析
用Spark Python構(gòu)建分類模型
使用 Spark MLlib 做 K-means 聚類分析
6.Spark在阿里云的使用
阿里云服務(wù)介紹
阿里云搭建Spark集群過程
計(jì)算π值和Kmeans實(shí)驗(yàn)
7.spark在AWS亞馬遜云的使用
亞馬遜AWS云服務(wù)的內(nèi)容
亞馬遜的EMR中提供的3種主要組件
Spark on Amazon EMR架構(gòu)解析
應(yīng)用案例:構(gòu)建1000個(gè)節(jié)點(diǎn)的Spark集群
Spark應(yīng)用
8.預(yù)測(cè)算法介紹
用Spark Python構(gòu)建回歸模型
9.案例介紹
使用 Spark 模塊解析