
Python 實現網站信息批量爬取培訓
通過 Python 實現一個命令行參數控制的爬蟲程序,
可以批量爬取網站的 URLs、JS 文件及其中的端點、
子域名和 DNS 有關的數據信息等,
能夠匹配自定義正則表達式的字符串,
還支持將終結果導出為 JSON 格式或 CSV 格式。
1
課程介紹及項目結構
1.項目代碼結構解析
2.項目用法演示
2
命令行參數解析
1.命令行終端顯示顏色
2.使用argparse模塊實現命令行參數解析
3.通過tempfile模塊創建臨時文件
4.Python中的父子進程
3
請求并返回響應體
1.處理用戶提供的URL
2.定義用戶代理
3.處理請求并返回響應體
4.從響應體中提取具體的信息
4
爬取及打印輸出
1.從robotstxt和sitemapxml文件中提取鏈接
2.處理URLs并使用線程池來執行函數
3.爬取及打印輸出
5
插件及效果演示
1.插件之查找子域名
2.插件之dnsdumpster
3.插件之支持結果導出
4.組合插件
5.效果演示

請
登錄
后發表評論
新評論
全部
第1節
第2節
第3節
第4節
第5節
第6節
第7節
第8節
第9節
第10節
第11節
第12節
第13節
第14節
第15節
第16節
第17節
我的報告 / 所有報告