課程目錄:大數(shù)據(jù)分析挖掘-基于Hadoop/Mahout/MLlib培訓(xùn)
        4401 人關(guān)注
        (78637/99817)
        課程大綱:

                大數(shù)據(jù)分析挖掘-基于Hadoop/Mahout/MLlib培訓(xùn)

         

         

         

        第一講大數(shù)據(jù)挖掘及其背景

        1)數(shù)據(jù)挖掘定義

        2)Hadoop相關(guān)技術(shù)

        3)大數(shù)據(jù)挖掘知識(shí)點(diǎn)

        第二講 MapReduce/DAG計(jì)算模式

        1)分布式文件系統(tǒng)DFS

        2)MapReduce計(jì)算模型介紹

        3)使用MR進(jìn)行算法設(shè)計(jì)

        4)DAG及其算法設(shè)計(jì)

        第三講 云挖掘工具M(jìn)ahout/MLib

        1)Hadoop中的Mahoutb介紹

        2)Spark中的Mahout/MLib介紹

        3)系統(tǒng)及其Mahout實(shí)現(xiàn)方法

        4)信息聚類及其MLlib實(shí)現(xiàn)方法

        5)分類技術(shù)在Mahout/MLib中的實(shí)現(xiàn)方法

        第四講 系統(tǒng)及其應(yīng)用開發(fā)

        1)一個(gè)系統(tǒng)的模型

        2)基于內(nèi)容的

        3)協(xié)同過濾

        4)基于Mahout的電影案例

        第五講 分類技術(shù)及其應(yīng)用

        1)分類的定義

        2)分類主要算法

        3)Mahout分類過程

        4)評(píng)估指標(biāo)以及評(píng)測

        5)貝葉斯算法新聞分類實(shí)例

        第六講 聚類技術(shù)及其應(yīng)用

        1)聚類的定義

        2)聚類的主要算法

        3)K-Means、Canopy及其應(yīng)用示例

        4)Fuzzy K-Means、Dirichlet及其應(yīng)用示例

        5)基于MLlib的新聞聚類實(shí)例

        第七講 關(guān)聯(lián)規(guī)則和相似項(xiàng)發(fā)現(xiàn)

        1)購物籃模型

        2)Apriori算法

        3)抄襲文檔發(fā)現(xiàn)

        4)近鄰搜索的應(yīng)用

        第八講 流數(shù)據(jù)挖掘相關(guān)技術(shù)

        1)流數(shù)據(jù)挖掘及分析

        2)Storm和流數(shù)據(jù)處理模型

        3)流處理中的數(shù)據(jù)抽樣

        4)流過濾和Bloom filter

        第九講 云環(huán)境下大數(shù)據(jù)挖掘應(yīng)用

        1)與Hadoop/Yarn集群應(yīng)用的協(xié)作

        2)與Docker等其它云工具配合

        3)大數(shù)據(jù)挖掘行業(yè)應(yīng)用展望