課程目錄:大數據分析挖掘與可視化培訓
        4401 人關注
        (78637/99817)
        課程大綱:

        大數據分析挖掘與可視化培訓

         

         

         

        數據分析實戰
        第一講 零基礎學Python
        講解Python背景、國內發展狀況、基礎語法、數據結構及繪圖操作等內容。特別針對向量計算這塊,著重介紹Python在這方面的優勢及用法。

        第二講 數據分析方法論
        講解統計分析基礎,包括統計學基本概念,假設檢驗,置信區間等基礎,并結合數據案例說明其使用場景和運用方法。介紹數據分析流程和常見分析思路,并結合案例進行講解。

        第三講 數據處理技法
        從數據接入、數據統計、數據轉換等幾個方面進行講解。數據接入包含接入MySQL、Oracle、Hadoop等常見數據庫操作;數據統計包含Pandas包的具體用法和講解;數據轉換包含對數據集的關聯、合并、重塑等操作。此外,針對海量數據的情況下,介紹在Spark平臺上的數據處理技術,并結合真實環境進行操作講解。

        數據挖掘理論及核心技術
        第四講 認識數據挖掘
        講解數據挖掘基本概念,細致講解業務理解、數據理解、數據準備、建立模型、模型評估、模型部署各環節的工作內容及相關技術;結合業界經典場景,講解數據挖掘的實施流程和方法體系。

        第五講 數據挖掘核心技術
        細致講解抽樣、分區、樣本平衡、特征選擇、訓練模型、評估模型等數據挖掘核心技術原理,并結合案例講解其具體實現和用法。尤其針對樣本平衡,重點講解人工合成、代價敏感等算法;針對特征選擇,重點講解特征選擇的核心思路,并結合Python進行案例演示。

        大數據算法原理及案例實現(1)
        第六講 特征降維算法及Python實現
        降維是大數據分析非常重要的算法,它可以在降低極少信息量的情況下,極大地縮小數據規模。主要講解主成分、LDA以及t-SNE原理,并結合案例進行Python實現。特別地,針對海量數據情況下的應用場景,講解實現思路和Python案例。

        第七講 決策樹算法及Python實現
        決策樹是非常經典的算法,一般常見于小數據的挖掘。由于決策樹具有極強的可解釋性,針對海量數據仍然是非常重要的實用價值。主要講解ID3、C4.5、C5.0以及CART決策樹算法的實現原理,并結合案例進行Python實現。

        第八講 好萊塢百萬級影評數據分析與電影推薦實現
        實戰部分:基于好萊塢百萬級的影評數據,對數據進行建模、清洗、透視表操作。然后根據用戶畫像分析不同的用戶喜好通過機器學習算法對不同性別、年齡階段的用戶進行定制化的電影推薦,后把推薦的電影進行可視化的展示操作

        大數據算法原理及案例實現(2)
        第九講 因果推理算法及Python實現
        大數據分析技術可以幫助我們去發現、解決一些業務問題,然而如何去判斷我們的改進是否生效,是否在業務指標上呈現過一定的因果邏輯,則是一個重要問題和分析方向。本節主要介紹因果推理算法,包括貝葉斯推理、狀態空間模型以及CausalImpact工具等內容,并結合案例進行Python實現。

        第十講 深度學習算法及Python實現
        對于大數據的建模任務,我們可以基于深度學習來實現,不僅能夠針對海量數據進行建模,其效果也非常不錯。本節主要講解深度學習的發展歷程,DBN、DNN等經典深度學習算法,深度學習優化算法以及一些技巧。同時,介紹Keras、OpenCV庫的使用方法,并結合案例進行Python實現。

        第十一講 采用OpenCV實現計算機視覺技術
        實戰部分:基于OpenCV面部模型,完成對圖片和視頻的人臉識別,實戰中會講解OpenCV的重要類和函數。主要內容包括OpenCV庫的安裝和部署、圖像增強、像素操作、圖形分析等各種技術,并且詳細介紹了如何處理來自文件或攝像機的視頻,以及如何檢測和跟蹤移動對象。

        Python應用實戰(一)
        第十二講 Python自然語言處理原理及案例
        目前文檔數據已經成為很多企業重要的資產,通過對文檔數據進行解析、建模、分析、挖掘、可視化,我們能夠發現不一樣的洞察。本節主要講解自然語言處理基本概念和技法,包含分詞、關鍵字提取、文摘提取、文本分類、主題模型、word2vec等內容。介紹在深度學習的加持下,與傳統做法的區別,并使用Python進行案例講解。

        第十三講 數據分析圖表及Python案例
        數據可視化是大數據分析的重要手段,通過合理地使用圖表,不僅可以簡潔地表達數據的含義,高效地發現問題,還可以為報告的編寫以及數據分析web應用增色不少。本節主要講解常用的數據分析圖表及其使用場景,介紹數據可視化的方法論,避免生搬硬套的使用圖表,針對不同的業務場景和需求,合理選擇可視化方法。介紹的工具不限于matplotlib、pycha、pyecharts、ggplot、Bokeh、HoloViews、mpld3、plotly、pygal等常用可視化庫。

        Python應用實戰(二)
        第十四講 使用Notebook編寫數據分析報告
        數據分析報告在大數據分析過程中具有重要價值,它體現了大數據分析的目的、過程和結果,以及對發現問題的解讀、改進方案等等,本節主要講解使用Notebook編寫數據分析報告的具體方法,以及編寫數據分析報告的方法論,并結合案例講解其用法。

        第十五講 Seaborn可視化開發實戰
        Seaborn是一款不錯的可視化框架,它和 Pandas一樣是建立在 Matplotlib 之上的??梢曰赟eaborn快速開發一個輕量級的數據分析web應用。在網頁中嵌入圖表、數據以及分析的算法,非常適合打造企業內部的敏捷數據分析工具集。本節主要介紹Pie、Scatter、Radar等等各種可視化解決方案,同時講解一個用Seaborn實現數據分析功能(兼圖表)的實際案例,搭建服務器,在企業內部實現輕量級數據分析應用。