
?
一、大數據集群搭建
課程介紹
課程環境搭建:CentOS 6.4集群搭建
課程環境搭建:hadoop-2.5.0-cdh5.3.6集群搭建
課程環境搭建:hive-0.13.1-cdh5.3.6安裝
課程環境搭建:zookeeper-3.4.5-cdh5.3.6集群搭建
課程環境搭建:kafka_2.9.2-0.8.1集群搭建
課程環境搭建:flume-ng-1.5.0-cdh5.3.6安裝
課程環境搭建:離線日志采集流程介紹
課程環境搭建:實時數據采集流程介紹
課程環境搭建:Spark 1.5.1客戶端安裝以及基于YARN的提交模式
?
二、用戶訪問session分析:?
用戶訪問session分析:模塊介紹
用戶訪問session分析:基礎數據結構以及大數據平臺架構介紹
用戶訪問session分析:需求分析
用戶訪問session分析:技術方案設計
用戶訪問session分析:數據表設計
用戶訪問session分析:Eclipse工程搭建以及工具類說明
用戶訪問session分析:開發配置管理組件
用戶訪問session分析:JDBC原理介紹以及增刪改查示范
-用戶訪問session分析:數據庫連接池原理
用戶訪問session分析:單例設計模式
用戶訪問session分析:內部類以及匿名內部類
用戶訪問session分析:開發JDBC輔助組件(上)
用戶訪問session分析:開發JDBC輔助組件(下)
用戶訪問session分析:JavaBean概念講解
用戶訪問session分析:DAO模式講解以及TaskDAO開發
用戶訪問session分析:工廠模式講解以及DAOFactory開發
-用戶訪問session分析:JSON數據格式講解以及fastjson介紹
用戶訪問session分析:Spark上下文構建以及模擬數據生成
用戶訪問session分析:按session粒度進行數據聚合
-用戶訪問session分析:按篩選參數對session粒度聚合數據進行過濾
-用戶訪問session分析:session聚合統計之自定義Accumulator
用戶訪問session分析:session聚合統計之重構實現思路與重構session聚合
用戶訪問session分析:session聚合統計之重構過濾進行統計
用戶訪問session分析:session聚合統計之計算統計結果并寫入MySQL
用戶訪問session分析:session聚合統計之本地測試
用戶訪問session分析:session聚合統計之使用Scala實現自定義Accumulator
用戶訪問session分析:session隨機抽取之實現思路分析
用戶訪問session分析:session隨機抽取之計算每天每小時session數量
用戶訪問session分析:session隨機抽取之按時間比例隨機抽取算法實現
用戶訪問session分析:session隨機抽取之根據隨機索引進行抽取
-用戶訪問session分析:session隨機抽取之獲取抽取session的明細數據
-用戶訪問session分析:session隨機抽取之本地測試
-用戶訪問session分析:top10熱門品類之需求回顧以及實現思路分析
-用戶訪問session分析:top10熱門品類之獲取session訪問過的所有品類
-用戶訪問session分析:top10熱門品類之計算各品類點擊、下單和支付的次數
用戶訪問session分析:top10熱門品類之join品類與點擊下單支付次數
用戶訪問session分析:top10熱門品類之自定義二次排序key
用戶訪問session分析:top10熱門品類之進行二次排序
用戶訪問session分析:top10熱門品類之獲取top10品類并寫入MySQL
用戶訪問session分析:top10熱門品類之本地測試
-用戶訪問session分析:top10熱門品類之使用Scala實現二次排序
-用戶訪問session分析:top10活躍session之開發準備以及top10品類RDD生成
用戶訪問session分析:top10活躍session之計算top10品類被各sessoin點擊的次數
用戶訪問session分析:top10活躍session之分組取TopN算法獲取top10活躍session
用戶訪問session分析:top10活躍session之本地測試以及階段總結
?
三、企業級性能調優、troubleshooting經驗與數據傾斜解決方案:
用戶訪問session分析:性能調優之在實際項目中分配更多資源
-用戶訪問session分析:性能調優之在實際項目中調節并行度
用戶訪問session分析:性能調優之在實際項目中重構RDD架構以及RDD持久化
用戶訪問session分析:性能調優之在實際項目中廣播大變量
用戶訪問session分析:性能調優之在實際項目中使用Kryo序列化
用戶訪問session分析:性能調優之在實際項目中使用fastutil優化數據格式
-用戶訪問session分析:性能調優之在實際項目中調節數據本地化等待時長
用戶訪問session分析:JVM調優之原理概述以及降低cache操作的內存占比
用戶訪問session分析:JVM調優之調節executor堆外內存與連接等待時長
-用戶訪問session分析:Shuffle調優之原理概述
用戶訪問session分析:Shuffle調優之合并map端輸出文件
用戶訪問session分析:Shuffle調優之調節map端內存緩沖與reduce端內存占比
用戶訪問session分析:Shuffle調優之HashShuffleManager與SortShuffleManager
用戶訪問session分析:算子調優之MapPartitions提升Map類操作性能
用戶訪問session分析:算子調優之filter過后使用coalesce減少分區數量
用戶訪問session分析:算子調優之使用foreachPartition優化寫數據庫性能
用戶訪問session分析:算子調優之使用repartition解決Spark SQL低并行度的性能問題
用戶訪問session分析:算子調優之reduceByKey本地聚合介紹
用戶訪問session分析:troubleshooting之控制shuffle reduce端緩沖大小以避免OOM
用戶訪問session分析:troubleshooting之解決JVM GC導致的shuffle文件拉取失敗
用戶訪問session分析:troubleshooting之解決YARN隊列資源不足導致的application直接失敗
用戶訪問session分析:troubleshooting之解決各種序列化導致的報錯
用戶訪問session分析:troubleshooting之解決算子函數返回NULL導致的問題
用戶訪問session分析:troubleshooting之解決yarn-client模式導致的網卡流量激增問題
用戶訪問session分析:troubleshooting之解決yarn-cluster模式的JVM棧內存溢出問題
-用戶訪問session分析:troubleshooting之錯誤的持久化方式以及checkpoint的使用
用戶訪問session分析:數據傾斜解決方案之原理以及現象分析
-用戶訪問session分析:數據傾斜解決方案之聚合源數據以及過濾導致傾斜的key
-用戶訪問session分析:數據傾斜解決方案之提高shuffle操作reduce并行度
用戶訪問session分析:數據傾斜解決方案之使用隨機key實現雙重聚合
用戶訪問session分析:數據傾斜解決方案之將reduce join轉換為map join
用戶訪問session分析:數據傾斜解決方案之sample采樣傾斜key單獨進行join
用戶訪問session分析:數據傾斜解決方案之使用隨機數以及擴容表進行join
?
四、頁面單跳轉化率統計:
頁面單跳轉化率:模塊介紹
頁面單跳轉化率:需求分析、技術方案設計、數據表設計
-頁面單跳轉化率:編寫基礎代碼
頁面單跳轉化率:頁面切片生成以及頁面流匹配算法實現
頁面單跳轉化率:計算頁面流起始頁面的pv
-頁面單跳轉化率:計算頁面切片的轉化率
頁面單跳轉化率:將頁面切片轉化率寫入MySQL
頁面單跳轉化率:本地測試
頁面單跳轉化率:生產環境測試
用戶訪問session分析:生產環境測試
?
五、各區域熱門商品統計:
各區域熱門商品統計:模塊介紹
-各區域熱門商品統計:需求分析、技術方案設計以及數據設計
各區域熱門商品統計:查詢用戶指定日期范圍內的點擊行為數據
各區域熱門商品統計:異構數據源之從MySQL中查詢城市數據
各區域熱門商品統計:關聯城市信息以及RDD轉換為DataFrame后注冊臨時表
各區域熱門商品統計:開發自定義UDAF聚合函數之group_concat_distinct()
各區域熱門商品統計:查詢各區域各商品的點擊次數并拼接城市列表
-各區域熱門商品統計:關聯商品信息并使用自定義get_json_object函數和內置if函數標記經營類型
-各區域熱門商品統計:使用開窗函數統計各區域的top3熱門商品
-各區域熱門商品統計:使用內置case when函數給各個區域打上級別標記
-各區域熱門商品統計:將結果數據寫入MySQL中
各區域熱門商品統計:Spark SQL數據傾斜解決方案
-各區域熱門商品統計:生產環境測試
?
六、廣告點擊流量實時統計:
廣告點擊流量實時統計:需求分析、技術方案設計以及數據設計
廣告點擊流量實時統計:為動態黑名單實時計算每天各用戶對各廣告的點擊次數
廣告點擊流量實時統計:使用高性能方式將實時計算結果寫入MySQL中
廣告點擊流量實時統計:過濾出每個batch中的黑名單用戶以生成動態黑名單
廣告點擊流量實時統計:基于動態黑名單進行點擊行為過濾
廣告點擊流量實時統計:計算每天各省各城市各廣告的點擊量
廣告點擊流量實時統計:計算每天各省的top3熱門廣告
廣告點擊流量實時統計:計算每天各廣告近1小時滑動窗口內的點擊趨勢
-廣告點擊流量實時統計:實現實時計算程序的HA高可用性
-廣告點擊流量實時統計:對實時計算程序進行性能調優
-廣告點擊流量實時統計:生產環境測試 |