
Python爬蟲及文本分析學術應用培訓
Python爬蟲及文本分析學術應用
爬蟲與文本分析概述
結構化數據/文本數據的獲取方法概述
高效的編程語言實現結構化數據處理與文本分析的價值,文本分析簡介
python編程基礎
標準數據類型
控制流
自定義函數
類
os文件處理模塊
python重要數據科學計算庫
Numpy
Pandas
Matplotlib
Pyecherts
wordcloud
爬蟲基礎
網絡爬蟲簡介
爬蟲的基本原理
HTML 簡介
數據存儲
網頁抓取
使用Urllib網頁抓取
requests實戰
BeautifulSoup4
BeautifulSoup 簡介
BeautifulSoup 的安裝
BS 對象的種類
遍歷文檔樹
搜索文檔樹
Xpath
什么是Xpath
Xpath開發工具
Xpath常用規則
動態渲染頁面抓取
Selenium 的安裝
基本使用
聲明瀏覽器對象
訪問頁面
定位元素
節點交互
動作鏈
執行 JavaScript
獲取節點信息
延時等待
前進后退
Cookies
選項卡管理
異常處理
爬蟲實戰
網站的爬取
電商評價文本爬取
可供讀取數據類型介紹
excel、pdf、txt、html、mysql數據庫文件介紹
數據的存儲
將數據存儲到excel表
將數據存儲到txt文本
將數據存儲到csv
數據的讀取
python批量讀取多個多子表excel
python讀取txt文件
python讀取csv
正則表達式
什么是正則表達式
正則表達式匹配規則
re模塊的使用
文本處理常用字符串方法精講
字符串的不變性
排序行
段落格式化
二進制轉化為ASCII
重復字詞過濾
提取郵件地址
提取URL地址
大寫轉換
符號化
刪除停用詞
同義詞與反義詞處理
文本翻譯
單詞替換
拼寫檢查
WordNet接口
語料訪問
標記單詞
塊和裂口
塊分類
文本分類
雙字母組
文字改寫
文字換行
頻率分布
文字摘要
詞干算法
約束搜索
numpy數值計算要點串講
Pandas數據處理串講
python統計圖表展示
重要的庫
jieba庫簡介
關鍵詞提取
關鍵詞任務概述
TF-IDF算法原理
相似文章推薦原理介紹
實例:紅樓夢文本分析的實現
文件與詞庫的讀取
完成分詞與詞云圖的繪制
文本分類
新聞素材介紹
新聞內容的關鍵詞提取
詞向量轉化與ngram模型
樸素貝葉斯算法完成新聞分類
文本聚類
語料的加載,文本特征的提取,利用聚類算法對文本進行聚類
主題模型,情感分析