搜索引擎优化 pdf(解密搜索引擎技术实战:LuceneJava精华版(第3版))
优采云 发布时间: 2021-10-07 05:05搜索引擎优化 pdf(解密搜索引擎技术实战:LuceneJava精华版(第3版))
解密搜索引擎技术实战:Lucene&Java精华版(第3版)是猎兔搜索开发团队软件开发及教学实践经验总结。本书总结了搜索引擎相关的理论和实用的解决方案,并给出了一个Java实现,它使用了流行的开源项目Lucene和Solr,还包括了原创的实现。本书主要包括整体介绍部分、爬虫部分、自然语言处理部分、全文搜索部分及相关案例分析。
爬虫部分介绍了网页遍历的方法以及如何实现增量爬取,介绍了从网页等各种格式的文档中提取主要内容的方法。
自然语言处理部分从统计机器学习的原理出发,包括中文分词和词性标注的理论与实现,以及在搜索引擎中的应用。同时还进行了文档排序、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题,并总结了实现方法.
在全文检索部分,结合Lucene,介绍了搜索引擎的原理和进展。通过一个简单的例子来介绍Lucene的应用方法,包括完整的搜索实现过程:从索引的完成到搜索用户界面的实现。
∮
第一章搜索引擎的总体结构 1
第二章网络爬虫的原理和应用11
第3章索引内容提取86
第4章中文分词原理及实现144
第5章让搜索引擎理解自然语言199
第6章Lucene原理及应用303
第7章搜索引擎用户界面370
第8章使用Solr实现企业搜索413
第9章地理信息系统案例研究474
第10章户外活动搜索案例研究495