
第一部分:大數據的基礎介紹
1.什么是大數據?
2.大數據時代的背景
3.學術上怎么定義大數據?
4.大數據的構成
5.大數據的演進過程
第二部分:大數據帶來的影響
1.大數據的關鍵技術?
2.大數據分布式系統的構成
3.計算模式?
4.大數據產業?
5.大數據與云計算的關系
6.大數據和物聯網的關系
第三部分:CentOS系統和Cloudera Manager安裝配置
1.VMware虛擬機安裝和配置
2.CentOS6.5且64位系統安裝
3.簡單的配置和遇到的問題
4.動手和實操
5.Cloudera Manager的離線安裝
第四部分:Cloudera CDH的安裝和配置及環境的測試
1.Cloudera CDH的離線安裝的環境準備 和配置,注意事項
2.單機版、偽分布式、真分布式介紹和區別
3.詳細介紹了CDH的部署配置,遇到的問題,怎么解決
4.HDFS分布式文件系統的安裝配置和測試
5.hdfs的權限配置,目錄創建,目錄查看等命令的使用
第五部分:開源Hadoop生態圈的介紹
1.Hadoop生態圈?
2.組件功能概要
3.Cloudera Manager的介紹
4.CM的硬件監控
5.內存監控
6.硬盤監控
7.預警監控
8.集群監控
第六部分:HDFS分布式文件系統詳解
1.什么是分布式文件系統HDFS
2.HDFS基本架構
3.基本概念
4.主要涉及理念
5.hdfs常用命令
6.hdfs的上傳文件?
7.hdfs的下載文件
8.hdfs的查看數據
9.hdfs優點和缺點
10.例子講解
第七部分:Sqoop大數據同步工具介紹
1.Sqoop基本介紹
2.基本原理
3.應用場景
4.Sqoop和mysql的連接
5.mysql數據到HDFS?
6.HDFS數據到mysql
7.關系型數據庫到hive
8.hive到關系型數據庫
9.Sqoop優點和缺點
10.例子講解
第八部分:Eclipse入門使用
1.安裝和配置JDK?
2.Eclipse基本介紹
3.Eclipse開發
4.開發helloworld的java程序
5.Eclipse的配置
第九部分:MapReduce分布式計算框架詳解
1.MapReduce基本介紹
2.為什么要用MR
3.MR是什么
4.工作原理
5.Map的原理
5.Reduce的原理?
6.MR例子-單詞計數
7.MR的優點和不足
8.例子講解
9.適用場景
第十部分:Hive 數據倉庫及案例
1.Hive 基本介紹
?
1)Hive 是什么
?
2)Hive 不是什么
?
3)Hive 結構圖
?
4)Hive 元數據
?
5)Hive 和普通關系數據的異同
?
6)Hive 和 SQL 比較
2.Hive 命令
?
1)建表
?
2)顯示表
?
3)修改表
?
4)load 數據
3.Hive 優化
?
1)分區概念
?
2)分區適用場景
?
3)分區例子
?
4)優化例子
?
5)優化建議方案
4.Hive 的用戶自定義函數
?
1)UDF 函數
?
2)UDAF 函數
?
3)UDTF 函數
5.Hive 練習和案例
?
1)練習
?
2)案例講解
第十一部分:Impala準實時分析
1.Impala基本介紹
2.技術架構
3.Impala與HIVE的關系
4.基本原理
5.優點和缺點
6.建表
7.加載數據
8.批量處理
9.常用腳本
10.和hive的性能比較
11.和oracle的對比2億數據性能?
12.和oracle的對比12億數據性能
第十二部分:Hue頁面工具詳解
1.命令腳本存在的問題?
2.為什么需要HUE?
3.Hue基本功能
2.Home頁面
3.Job Browser頁面
4.File Browser頁面
5.元數據頁面
6.Hive查詢頁面
7.Impala查詢頁面
8.創建外部表
9.加載數據
10.查詢結果
第十三部分:Hbase列數據庫及應用案例
1.Hbase感性認識
?
1)Hbase簡介
?
2)Hbase特點
?
3)HBase與RDBMS對比
?
4)HBase體系結構
?
5)Hbase常見概念
2.Hbase主要組成
?
1)HBase基本命令介紹
?
2)Zookeeper、Hmaster
?
3)HRegionServer、Region
?
4)HStore存儲、Hfile
?
5)Hbase內部掃描RowKey的原理
?
6)Hbase內部讀寫原理
?
7)HBase設計原理、架構分析
?
8)Hadoop+HBase伸縮性(自動擴容、熱部署)
?
9)HBase相關表結構設計(列族、列詳細分析)
?
10)HBase主HMaster與備用HMaster間的切換原理
3.Hbase性能測試
?
1)測試數據
?
2)測試過程
?
3)測試結論
?
4)和Oracle Rac等進行對比
4.Hbase設計原則和優化
?
1)Hbase的RowKey設計原則
?
2)性能參數的設置
?
3)性能參數的調整
?
4)模型和性能優化
5.例子講解
6.項目案例
?
1)HBase在小米業務的應用
第十四部分:運營商全國用戶上網記錄案例介紹
1.業務背景?
2.難點分析?
3.用戶需求?
4.系統部署
5.技術架構
第十五部分:大數據平臺部署及案例
1.hadoop有哪幾個版本?
2.Hadoop版本介紹?
3.CDH和Apache版本主要區別?
4.集群硬件應該如何選配?
?
1)網絡拓撲
?
2)內存
?
3)硬盤
?
4)CPU
?
5)價格
5.集群硬件應該如何選配
6.英特爾Hadoop發行版的介紹?
7.英特爾功能增強?
8.某省級通信運營商清帳單查詢系統
9.為什么采用Hadoop解決方案
10.新清賬單中心的部署方案
第十六部分:Kafka詳解及應用案例
1.Kafka的基本介紹
?
1)什么是消息系統?
?
2)消息隊列的分類
?
3)kafka的基本架構和概念
?
4)ZooKeeper簡介和安裝
2.Kafka的原理解析
?
1)Kafka在ZK上的存儲結構
?
2)Producer的處理邏輯
?
3)Consumer的處理邏輯
?
4)Broker的處理邏輯
3.Kafka安裝和部署
?
1)關閉服務
?
2)下載軟件
?
3)拷貝文件
?
4)重啟服務
?
5)測試功能是否能用
4.Kafka的Java應用開發
?
1)Producer端的實現
?
2)Consumer端的實現
?
3)程序執行演示
5.Kafka與Hadoop集成
?
1)Hadoop簡介和配置
?
2)集成Kafka和Hadoop
?
3)例子演示
6.案例講解
第十七部分:hadoop衍生數據處理詳解例
1.ETL 數據處理介紹
?
1)ETL 導論
?
2)ETL 概念
?
3)ETL 邏輯架構
?
4)exact 方式
?
5)增量數據捕獲方法
?
6)數據處理方式
?
7)數據轉換
?
8)緩慢變化維處理
?
9)數據倉庫 Update 處理
?
10)ETL 優點
2.Kettle 介紹
?
1)簡介 kettle
?
2)安裝和部署
?
3)運行
3.Kettle 適用
?
1)菜單介紹
?
2)轉換
?
3)作業
?
4)新建 Ktr
?
5)新建 Kjb
?
6)Transformation 菜單介紹
?
7)Transformation
?
8)Job 菜單介紹
?
9)Job 組件介紹
4.Kettle 案例
?
1)案例準備
?
2)表準備和說明
?
3)作業建立過程
?
4)測試結果檢驗
?
5)表到文本文件
?
6)文本文件到表
5.JAVASCRIPT 的基本應用
6.文件 FTP 下載、上傳。
7.作業調用作業、轉換。
8.啟動腳本說明。
9.JAVA 調用作業、轉換
10.kettle 使用原則
11.kettle 練習和案例