課程目錄:Python爬蟲及文本分析學術應用培訓
        4401 人關注
        (78637/99817)
        課程大綱:

                  Python爬蟲及文本分析學術應用培訓

         

         

         

         

        Python爬蟲及文本分析學術應用
        爬蟲與文本分析概述
        結構化數據/文本數據的獲取方法概述

        高效的編程語言實現結構化數據處理與文本分析的價值,文本分析簡介

        python編程基礎
        標準數據類型

        控制流

        自定義函數

        os文件處理模塊

        python重要數據科學計算庫
        Numpy

        Pandas

        Matplotlib

        Pyecherts

        wordcloud

        爬蟲基礎
        網絡爬蟲簡介

        爬蟲的基本原理

        HTML 簡介

        數據存儲

        網頁抓取
        使用Urllib網頁抓取

        requests實戰

        BeautifulSoup4
        BeautifulSoup 簡介

        BeautifulSoup 的安裝

        BS 對象的種類

        遍歷文檔樹

        搜索文檔樹

        Xpath
        什么是Xpath

        Xpath開發工具

        Xpath常用規則

        動態渲染頁面抓取
        Selenium 的安裝

        基本使用

        聲明瀏覽器對象

        訪問頁面

        定位元素

        節點交互

        動作鏈

        執行 JavaScript

        獲取節點信息

        延時等待

        前進后退

        Cookies

        選項卡管理

        異常處理

        爬蟲實戰
        網站的爬取

        電商評價文本爬取

        可供讀取數據類型介紹
        excel、pdf、txt、html、mysql數據庫文件介紹

        數據的存儲
        將數據存儲到excel表

        將數據存儲到txt文本

        將數據存儲到csv

        數據的讀取
        python批量讀取多個多子表excel

        python讀取txt文件

        python讀取csv

        正則表達式
        什么是正則表達式

        正則表達式匹配規則

        re模塊的使用

        文本處理常用字符串方法精講
        字符串的不變性

        排序行

        段落格式化

        二進制轉化為ASCII

        重復字詞過濾

        提取郵件地址

        提取URL地址

        大寫轉換

        符號化

        刪除停用詞

        同義詞與反義詞處理

        文本翻譯

        單詞替換

        拼寫檢查

        WordNet接口

        語料訪問

        標記單詞

        塊和裂口

        塊分類

        文本分類

        雙字母組

        文字改寫

        文字換行

        頻率分布

        文字摘要

        詞干算法

        約束搜索

        numpy數值計算要點串講

        Pandas數據處理串講

        python統計圖表展示

        重要的庫
        jieba庫簡介

        關鍵詞提取
        關鍵詞任務概述

        TF-IDF算法原理

        相似文章推薦原理介紹

        實例:紅樓夢文本分析的實現

        文件與詞庫的讀取

        完成分詞與詞云圖的繪制

        文本分類
        新聞素材介紹

        新聞內容的關鍵詞提取

        詞向量轉化與ngram模型

        樸素貝葉斯算法完成新聞分類

        文本聚類
        語料的加載,文本特征的提取,利用聚類算法對文本進行聚類

        主題模型,情感分析