Apache Oozie 是用于 Hadoop 平臺的一種工作流調度引擎。該框架(如圖 1 所示)使用 Oozie 協調器促進了相互依賴的重復工作之間的協調,您可以使用預定的時間或數據可用性來觸發 Apache Oozie。您可以使用 Oozie bundle 系統提交或維護一組協調應用程序。作為本練習的一部分,Oozie 運行了一個 Apache Sqoop 作業,以便在 MySQL 數據庫中的數據上執行導入操作,并將數據傳輸到 Hadoop 分布式文件系統 (HDFS) 中。可以利用導入的數據集執行 Sqoop 合并操作,從而更新較舊的數據集。通過利用 UNIX shell 操作,可從 MySQL 數據庫中提取用來執行 Sqoop 作業的元數據。同理,可執行 Java 操作來更新 Sqoop 作業所需的 MySQL 數據庫中的元數據。
本系列課程共包含以下課程:
1、Hadoop 2.x (一)大數據基礎?
2、Hadoop 2.x (二)大數據進階?
3、Hadoop 2.x (三) 數據分析引擎:Hive?
4、Hadoop 2.x (四)數據分析引擎:Pig?
5、Hadoop 2.x(五)? MapReduce實戰案例集錦??
6、Hadoop 2.x(六)? 使用Avro實現序列化?
?
7、Hadoop 2.x (七):工作流引擎Oozie?
???
建議學員從第一門課程開始,逐步學習;并完成相應的實驗,這樣可以更好的理解和掌握Hadoop的體系結構。
第一章 課程概述與Oozie的安裝配置
(*)課程概述與基本概念
(*)安裝和配置Oozie
(*)演示Oozie自帶的Example
第二章 定義Oozie的節點
(*)控制節點
(*)動作節點之一:Fs
(*)動作節點之二:Java-Main
(*)動作節點之三:MapReduce
(*)動作節點之四:Sqoop
(*)動作節點之五:Hive
(*)動作節點之六:Pig
第三章 綜合案例:處理商品訂單
(*)綜合案例:處理商品訂單
第四章 Coordinator和Bundle
(*)什么是OOzie的Coordinator?
(*)什么是OOzie的Bundle?
-