第一部份:初識搜索引擎,了解其技術架構
1、按照各大搜索引擎商業公司使用的技術為依據對搜索引擎進行時代劃分
2、講解搜索引擎的三大實現目標
3、講解搜索引擎的三大核心問題及技術發展
4、詳細講解搜索引擎的技術架構
第二部份:講解網絡爬蟲
1、講解通用爬蟲框架
2、講解通過哪些特征來判斷一個網絡爬蟲是否優秀
3、詳細講解網絡爬蟲的抓取策略
4、詳細講解網絡爬蟲對網頁更新策略
5、詳細講解網絡爬蟲的暗網抓取
6、詳細講解分布式爬蟲
第三部份:講解搜索引擎索引
1、講解單詞--文檔矩陣、倒排索引基本概念、倒排索引簡單實例
2、講解單詞詞典:哈希加鏈表、樹形結構、
3、講解兩遍文檔遍歷法、排序法、歸并法、動態索引
4、講解索引更新策略:完全重建策略、在合并策略、原地跟新策略、
5、講解查詢處理:一次一文檔、一次一單詞、跳躍指針、多字段索引
第四部份:講解索引壓縮
1、講解詞典壓縮
2、講解倒排列表壓縮算法
3、講解文檔編號重排序
4、講解靜態索引裁剪
第五部份:檢索模型與搜索排序
1、講解布爾模型
2、講解向量空間模型
3、講解概率檢索模型
4、講解語言模型方法
5、講解機器學習排序
第六部份:講解鏈接分析
1、講解web圖
2、講解隨機游走模型、子集傳播模型、鏈接分析算法之間的關系
3、講解PageRank算法
4、講解HITS算法
5、講解SALSA算法
6、講解主題敏感PageRank
7、講解Hilltop算法
第七部份:云存儲與云計算
1、講解云存儲與云計算概述
2、講解CAP原理
3、講解Google的云存儲與云計算架構
4、講解google文件系統GFS
5、講解BigTable存儲模型
6、講解Map/Reduce云計算模型
第八部份:講解網頁反作弊
1、講解內容作弊
2、講解鏈接作弊
3、講解網頁隱藏作弊
4、講解Web 2.0作弊方法
5、講解反作弊技術的整體思路
6、講解通用鏈接反作弊方法
7、講解專用鏈接反作弊技術
第九部份:講解用戶查詢意圖分析
1、講解搜索行為及其意圖
2、講解搜索日志挖掘
3、講解相關搜索
4、講解查詢糾錯
第十部份:講解網頁去重
1、講解通用去重算法框架
2、講解Shingling算法
3、講解I-Match算法
4、講解SimHash算法
5、講解SpotSig算法
第十一部份:搜索引擎緩存機制
1、講解搜索引擎緩存系統架構
2、講解緩存對象
3、講解緩存結構
4、講解緩存淘汰策略
5、講解緩存跟新策略
第十二部份:講解搜索引擎的發展趨勢
1、講解個性化搜索
2、講解社會化搜索
3、講解實時搜索
4、講解移動搜索
5、講解地位位置感知搜索
6、講解跨語言搜索
7、講解多媒體搜索
8、講解情景搜索
第十三部份:實戰講解怎么構建一個搜索引擎01(使用Java開發)
1、準備搜索引擎開發環境、提取HTML文件內容:結構化信息提取、網頁架構相似度計算、正文提取工具FireBug、NekoHTML的使用
2、提取txt、pdf、word、execl、PowerPoint等文件內容、流媒體文件內容提取(音頻文件、視頻文件)
3、Lucene中的中文分詞、Lietu中文分詞的使用、理解Lucene的索引庫結構、設計一個簡單的索引庫
4、自動分類的SVM方法實現、K均值聚類方法、K均值實現、拼音轉換、語義搜索
第十四部份:實戰講解怎么構建一個搜索引擎02(使用java開發)
1、索引優化、查詢優化、實現時間加權排序、實現字詞混合索引、定制Similarity、定制Tokenizer
2、Lucene搜索接口、搜索頁面設計、實現搜索接口
3、實現關鍵字高亮、實現多維視圖、實現相似文檔搜索、實現AJAX自動完成
4、使用Solr實現分布式搜索:Solr服務器端的配置與中文支持、Solr索引庫的查找、Solr搜索優化、SolrJ查詢分析器、Solr的.net客戶端、Solr的php客戶端