本課程內(nèi)容:
第一章:
1、課程內(nèi)容
2、課程需要的環(huán)境
第二章:spark SQL相關(guān)的基本概念
1、spark SQL基本概念
2、淺嘗spark SQL的API
3、淺嘗spark SQL的API(python版)
4、SparkSession的講解
5、SparkSession的講解(python版)
第三章 Dataset/DataFrame的創(chuàng)建
1、DataFrame的創(chuàng)建
2、DataFrame的創(chuàng)建(python版)
3、schema的定義以及復(fù)雜數(shù)據(jù)類型的用法
4、schema api的用處
5、schema相關(guān)API的講解(python版)
第四章 spark SQL讀寫外部數(shù)據(jù)源
1、基本操作load和save
2、基本操作load和save(python版)
3、parquet和orc文件的讀寫
4、parquet和orc文件的讀寫(python版)
5、json文件的讀寫一
6、json文件的讀寫二
7、json文件的讀寫(python版)
8、csv文件的讀寫一
9、csv文件的讀寫二
10、csv文件的讀寫(python版)
11、通過jdbc讀寫mysql數(shù)據(jù)庫
12、通過jdbc寫mysql數(shù)據(jù)庫需要注意的點(diǎn)
13、通過jdbc讀mysql數(shù)據(jù)庫需要注意的點(diǎn)
14、通過jdbc讀寫mysql數(shù)據(jù)庫(python版)
15、text文件和table數(shù)據(jù)源的讀寫
16.、text文件和table數(shù)據(jù)源的讀寫(python版)
17、數(shù)據(jù)源實(shí)戰(zhàn)之?dāng)?shù)據(jù)分區(qū)
18、數(shù)據(jù)源實(shí)戰(zhàn)之?dāng)?shù)據(jù)分區(qū)(python版)
第五章: SQL操作spark SQL
1、catalog元數(shù)據(jù)管理講解
2、catalog元數(shù)據(jù)管理講解(python版)
3、DDL-表的類型種類及其創(chuàng)建方式
4、DDL-表的類型種類及其創(chuàng)建方式(python版)
5、DQL-sql查詢及其sql函數(shù)講解
6、DQL-sql查詢及其sql函數(shù)講解(python版)
7、SQL內(nèi)置函數(shù)(絕對全)
第六章:Dataset/DataFrame的API的使用
1、Column的表達(dá)
2、Column的表達(dá)(python版)
3、DataFrame中Untyped API講解
4、DataFrame中Untyped API講解(python版)
5、DataFrame Untyped API與SQL對比
6、group分組聚合相關(guān)API
7、group分組聚合相關(guān)API(python版)
8、join關(guān)聯(lián)相關(guān)API
9、join關(guān)聯(lián)相關(guān)API(python版)
10、sort排序相關(guān)API
11、sort排序相關(guān)API(python版)
12、Action API和其他API
第六章:spark SQL實(shí)戰(zhàn)
1、RDDs\DataFrames\Datasets各自使用場景
2、json格式數(shù)據(jù)處理
3、json格式數(shù)據(jù)處理(python版)
4、物聯(lián)網(wǎng)設(shè)備信息的ETL
5、物聯(lián)網(wǎng)設(shè)備信息的ETL(python版)