課程目錄:基于分布式架構大數據hadoop生態組件及數據分析可視化培訓
        4401 人關注
        (78637/99817)
        課程大綱:

            基于分布式架構大數據hadoop生態組件及數據分析可視化培訓

         

         

        1、分布式大數據框架Hadoop(理論·上)
        本節主要講解大數據概述及Hadoop HDFS
        2、分布式大數據框架Hadoop(實操·上)
        本實操演練練習Hadoop部署及插件安裝
        01 實操:Hadoop 安裝
        紹搭建Hadoop集群的具體步驟。
        02 實操:Hadoop開發插件安裝
        介紹如何給Eclipse配置Hadoop插件、方便使用Eclipse開發工具進行大數據開發。
        視情況及反饋, 會選用 IntelliJ IDEA
        章節內容:分布式大數據框架 Hadoop
        課程內容: 1 、分布式處理框架 MapReduce
        2、資源調度框架 Yarn
        授課內容:
        1、分布式大數據框架Hadoop(理論·下)
        主要講解Hadoop MR、Yarn
        2、式大數據框架Hadoop(實操·下)
        操演練練習Hadoop Shell操作及MR入門案例
        03 實操:Hadoop Shell基本操作
        本任務介紹常用的Hadoop Shell命令。
        04 實操:Mapreduce實例——WordCount
        本任務練習使用電商數據進行詞頻統計。
        章節內容:數據倉庫 Hive + 數據遷移工具 Sqoop
        課程內容:
        1、數據倉庫 Hive 介紹
        2、Hive 安裝部署
        3、Hive Shell 基本操作
        4、Sqoop 安裝部署
        5、Sqoop 數據遷移
        6、Sqoop 增量數據遷移
        授課內容
        1、 數據倉庫Hive+數據遷移工具Sqoop(理論)
        本節主要講解數據倉庫Hive及遷移工具Sqoop
        2、 數據倉庫Hive+數據遷移工具Sqoop(實操)
        本實操演練練習Hive基本操作及Sqoop應用
        05 實操:Hive安裝部署
        本任務介紹如何安裝部署數據倉庫Hive。
        06 實操:Hive基本操作
        本任務詳細介紹Hive的基本操作以及Hive的外部表與內部表的區別。
        07 實操:Sqoop安裝
        本任務主要介紹Sqoop的工作原理,然后詳細說明Sqoop的安裝部署過程。
        08 實操:綜合案例—基本流程圖
        本任務介紹Sqoop在Hive與Mysql之間進行數據傳遞以及Hive數據分析
        1、Flume 介紹
        2、Flume Agent 詳解
        授課內容:
        1、 分布式日志采集工具Flume(理論)
        本節主要講解Flume工作原理、架構、Agent概念
        2、 分布式日志采集工具Flume(實操)
        本演練實操練習Flume安裝部署及Agent配置詳解
        09 實操:Flume安裝部署
        本任務介紹Flume的工作原理和Flume安裝流程。
        10 實操:Flume配置:Source、Channel、Sink
        本任務介紹配置多種source,channel,sink組合,實現多種需求。
        11 實操:Flume多source,多sink組合框架搭建
        本任務介紹Flume多source,多sink組合框架搭建。
        章節內容:分布式消息系統 Kafka
        課程內容:
        1、Kafka 結構分析 2、Flume 與 Kafka 聯用
        授課內容:
        1、 分布式消息體統Kafka(理論)
        本節主要講解Kafka工作原理、架構及名詞概念
        2、 分布式消息體統Kafka(實操)
        本演練實操練習Kafka安裝部署、與Flume連用
        12 實操:Kafka安裝及測試
        本任務介紹安裝scala與zookeeper,然后在已安裝好的scala和zookeeper環境基礎上,安裝部署Kafka。
        13 實操:Flume傳輸數據給Kafka
        本任務介紹Flume傳數據到Kafka的執行原理和具體操作。
        章節內容:分布式大數據框架Spark
        課程內容:
        1、Spark 框架介紹
        2、Spark RDD 介紹
        3、Spark SQL 數據處理
        4、Spark Shell 數據處理
        授課內容:
        1、 分布式大數據框架Spark(理論)
        本節主要講解Spark工作原理、架構及RDD概念
        2、分布式大數據框架Spark(實操)
        本演練實操練習Spark安裝部署及Shell操作
        14 實操:Spark Standalone偽分布模式安裝
        本任務介紹在已經安裝好Hadoop下,如何安裝Spark Standalone模式。
        15 實操:Spark Shell操作
        本任務介紹Spark Shell操作,在Spark Shell命令行下對算子進行實例講解,包括去重、排序、Join、求平均值
        1、爬蟲框架介紹
        2、電商數據清洗
        3、電商離線數據分析
        4、數據遷移
        授課內容:
        1、電子商務數據分析項目(爬蟲、清洗)
        2、電子商務數據分析項目(離線數據分析)
        16 實操:一、采集電商網站交易及評論數據(局域網or互聯網)
        本次任務對爬蟲進行了介紹,并分析網頁的源碼結構和如何爬取數據。
        17 實操:二、開發MR程序清洗電商評論數
        18 實操:三、利用HiveSQL離線分析評論數據
        19 實操:四、利用Sqoop進行數據遷移至Mysql數據庫
        1、離線數據可視化 2、SparkStreaming 實時流數據處理