學(xué)習(xí)目標(biāo):
熟練掌握urllib.lib庫(kù)及requests庫(kù)的使用,掌握爬蟲高級(jí)技術(shù)及Scrapy分布式爬蟲開發(fā)。
學(xué)習(xí)內(nèi)容:
urllib.lib庫(kù)
Python urllib
urllib庫(kù)的操作
urllib基本get請(qǐng)求
urllib基本post請(qǐng)求
超時(shí)配置與會(huì)話對(duì)象
代理與API
requests庫(kù)
通過pip安裝requests
發(fā)送請(qǐng)求
Response對(duì)象
身份驗(yàn)證
Cookies
超時(shí)與異常
綜合應(yīng)用案例
Xpath
1、CSS選擇器
2、Xpath基本介紹
3、Xpath基本語法
4、XPath 軸
5、Xpath的運(yùn)算符
6、Xpath語法定位
7、反爬蟲技術(shù)
爬蟲高級(jí)技術(shù)
多線程與多進(jìn)程
代理設(shè)置
動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容的抓取
Selenium
模擬表單登錄
圖片驗(yàn)證碼識(shí)別
Scrapy分布式爬蟲
創(chuàng)建項(xiàng)目與Item
命令行工具
Spiders參數(shù)
Scrapy的Feed
數(shù)據(jù)收集與終端輸出
Scrapy爬蟲問題
Scrapy爬蟲調(diào)試 |