国产99re在线观看只有精品,久久精品视频2,国产在线你懂得

課程大綱

課程大綱：

基于分布式架構大數據hadoop生態組件及數據分析可視化培訓

1 、分布式處理框架 MapReduce

2、資源調度框架 Yarn

1、分布式大數據框架Hadoop

主要講解Hadoop MR、Yarn

2、式大數據框架Hadoop

Hadoop Shell操作及MR入門案例

03 ：Hadoop Shell基本操作

本任務介紹常用的Hadoop Shell命令。

04 ：Mapreduce實例——WordCount

本任務練習使用電商數據進行詞頻統計。

章節內容：數據倉庫 Hive + 數據遷移工具 Sqoop

1、數據倉庫 Hive 介紹 2、Hive 安裝部署

3、Hive Shell 基本操作 4、Sqoop 安裝部署

5、Sqoop 數據遷移 6、Sqoop 增量數據遷移

1、數據倉庫Hive+數據遷移工具Sqoop（理論）

本節主要講解數據倉庫Hive及遷移工具Sqoop

2、數據倉庫Hive+數據遷移工具Sqoop（）

本演練練習Hive基本操作及Sqoop應用

05 ：Hive安裝部署

本任務介紹如何安裝部署數據倉庫Hive。

06 ：Hive基本操作

本任務詳細介紹Hive的基本操作以及Hive的外部表與內部表的區別。

07 ：Sqoop安裝

本任務主要介紹Sqoop的工作原理，然后詳細說明Sqoop的安裝部署過程。

08 ：綜合案例—基本流程圖

本任務介紹Sqoop在Hive與Mysql之間進行數據傳遞以及Hive數據分析

章節內容：分布式日志采集工具 Flume

1、Flume 介紹 2、Flume Agent 詳解

1、分布式日志采集工具Flume（理論）

本節主要講解Flume工作原理、架構、Agent概念

2、分布式日志采集工具Flume（）

本演練練習Flume安裝部署及Agent配置詳解

09 ：Flume安裝部署

本任務介紹Flume的工作原理和Flume安裝流程。

10 ：Flume配置：Source、Channel、Sink

本任務介紹配置多種source，channel，sink組合，實現多種需求。

11 ：Flume多source，多sink組合框架搭建

本任務介紹Flume多source，多sink組合框架搭建。

章節內容：分布式消息系統 Kafka

1、Kafka 結構分析 2、Flume 與 Kafka 聯用

1、分布式消息體統Kafka（理論）

本節主要講解Kafka工作原理、架構及名詞概念

2、分布式消息體統Kafka（）

本演練練習Kafka安裝部署、與Flume連用

12 ：Kafka安裝及測試

本任務介紹安裝scala與zookeeper，然后在已安裝好的scala和zookeeper環境基礎上，安裝部署Kafka。

13 ：Flume傳輸數據給Kafka

本任務介紹Flume傳數據到Kafka的執行原理和具體操作。

章節內容：分布式大數據框架Spark

1、Spark 框架介紹 2、Spark RDD 介紹

3、Spark SQL 數據處理 4、Spark Shell 數據處理

1、分布式大數據框架Spark（理論）

本節主要講解Spark工作原理、架構及RDD概念

2、分布式大數據框架Spark（）

本演練練習Spark安裝部署及Shell操作

14 ：Spark Standalone偽分布模式安裝

本任務介紹在已經安裝好Hadoop下，如何安裝Spark Standalone模式。

15 ：Spark Shell操作

本任務介紹Spark Shell操作，在Spark Shell命令行下對算子進行實例講解，包括去重、排序、Join、求平均值

章節內容：電商項目（上）

1、爬蟲框架介紹 2、電商數據清洗

3、電商離線數據分析 4、數據遷移

1、電子商務數據分析項目（爬蟲、清洗）

本演練練習電商案例之數據采集、清洗

2、電子商務數據分析項目（離線數據分析）

本演練練習電商案例之離線分析、數據遷移

16 ：一、采集電商網站交易及評論數據(局域網or互聯網)

本次任務對爬蟲進行了介紹，并分析網頁的源碼結構和如何爬取數據。

17 ：二、開發MR程序清洗電商評論數據

本次任務對數據清洗進行概述，包括Json解析，搭建解析框架和編寫MapReduce代碼。

18 ：三、利用HiveSQL離線分析評論數據

本次任務介紹使用HiveSQL根據多種需求對數據進行統計并演示。

19 ：四、利用Sqoop進行數據遷移至Mysql數據庫

本次任務介紹了如何將Hive表中數據導入到MySQL以和如何將HDFS中數據導入到MySQL。

章節內容：電商項目（下）

1、離線數據可視化 2、SparkStreaming 實時流數據處理

1、電子商務數據分析項目（數據可視化）

本演練練習電商案例之數據可視化

2、電子商務數據分析項目（實時數據分析）

本演練練習電商案例之實時數據分析

20 ：五、利用JavaWeb+Echarts完成數據圖表展示過程

本次任務介紹通過搭建JavaWeb框架，將數據進行可視化圖表展示。

21 ：六、利用Spark進行實時數據分析（上）(局域網or互聯網)

本次任務以京東商品評論為目標網站，架構采用Java爬蟲框架+Flume+Kafka+Spark Streaming+Mysql等多種技術，動態實時的采集、分析、展示數據。

22 ：七、利用Spark進行實時數據分析（下）(局域網or互聯網)

本次任務以京東商品評論為目標網站，架構采用Java爬蟲框架+Flume+Kafka+Spark Streaming+Mysql等多種技術，動態實時的采集、分析、展示數據。

課程教師

進階課程

課程教師

進階課程

開始新實驗

開始評估課實驗

開始實驗