
Python 實(shí)現(xiàn)搜索引擎培訓(xùn)
爬蟲(chóng)基礎(chǔ)并利用 Python 的異步特性實(shí)現(xiàn)異步的爬蟲(chóng)系統(tǒng)。
而后,會(huì)對(duì)索引的構(gòu)建、索引的壓縮、排名算法等知識(shí)點(diǎn)進(jìn)行講解并實(shí)現(xiàn)其編碼。
后利用異步 web 框架 sanic 構(gòu)建后端,實(shí)現(xiàn)一個(gè)完整的垂直搜索引擎站點(diǎn)。
1 搜索引擎架構(gòu)設(shè)計(jì)
2 爬蟲(chóng)的基本概念
3 基于 Ruia 構(gòu)造異步爬蟲(chóng)系統(tǒng)
4 對(duì)文檔數(shù)據(jù)進(jìn)行處理
5 實(shí)現(xiàn)倒排索引的壓縮
6 異步爬蟲(chóng)框架 Sanic
7 實(shí)現(xiàn)前后端交互
8 搜索引擎的必要組件
9 異步爬蟲(chóng)框架 Ruia
10 索引結(jié)構(gòu)的使用
11 實(shí)現(xiàn) ElasGamma 算法的編碼與解碼
12 文檔的搜索功能
13 編寫搜索引擎前端
14 搜索結(jié)果排名
1
搜索引擎架構(gòu)
1.介紹本課程實(shí)現(xiàn)的搜索引擎的架構(gòu)設(shè)計(jì)
2.介紹搜索引擎所必要的組件
3.對(duì)課程項(xiàng)目進(jìn)行開(kāi)發(fā)環(huán)境的部署和配置
4.創(chuàng)建項(xiàng)目及必要的代碼目錄
2
構(gòu)建爬蟲(chóng)系統(tǒng)
1.爬蟲(chóng)的基本概念
2.異步爬蟲(chóng)框架ruia的使用介紹
3.基于ruia構(gòu)造異步爬蟲(chóng)系統(tǒng)
3
索引結(jié)構(gòu)的實(shí)現(xiàn)
1.索引的基本概念
2.構(gòu)建倒排索引
3.對(duì)文檔數(shù)據(jù)進(jìn)行處理
4
索引壓縮
1.為什么要進(jìn)行索引壓縮
2.倒排索引的優(yōu)化方法
3.實(shí)現(xiàn)EliasGamma算法的編碼與解碼
4.實(shí)現(xiàn)倒排索引的壓縮
5.實(shí)現(xiàn)文檔的搜索功能
5
實(shí)現(xiàn)搜索引擎前端以及后端
1.異步Web框架Sanic
2.使用Sanic搭建后端服務(wù)
3.編寫搜索引擎前端
4.實(shí)現(xiàn)前后端交互
6
搜索結(jié)果排名
1.CosineSimiliarity
2.PageRank
7
搜索引擎的功能擴(kuò)展
1.為搜索關(guān)鍵詞結(jié)果編寫頁(yè)面緩存功能
