解密搜索引擎技术实战:LuceneampJava精华版(第3版)
优采云 发布时间: 2021-05-09 07:30解密搜索引擎技术实战:LuceneampJava精华版(第3版)
解密的搜索引擎技术之战:Lucene&Java Essentials Edition(第3版)总结了狩猎兔子搜索开发团队的软件开发和教学实践经验。本书总结了与搜索引擎相关的理论和实用解决方案,并给出了Java实现,该实现使用了流行的开源项目Lucene和Solr,还包括原创的实现。本书主要包括总体介绍部分,爬虫部分,自然语言处理部分,全文搜索部分和相关案例分析。
采集器部分介绍了Web遍历方法以及如何实现增量搜寻,并介绍了从各种格式(例如网页)的文档中提取主要内容的方法。
自然语言处理部分从统计机器学习的原理开始,包括中文分词和词性标记的理论和实现,以及其在搜索引擎中的应用。同时,它还对文档,文本分类,自动聚类和语法进行排名。简单介绍了自然语言处理领域中的经典问题,例如分析树和拼写检查,并总结了实现方法。
在全文搜索部分,结合Lucene,介绍了搜索引擎的原理和进展。一个简单的例子介绍了Lucene的应用方法,包括完整的搜索实现过程:从索引的完成到搜索用户界面的实现。
Ŀ¼
第1章搜索引擎1的总体结构
第2章Web爬网程序的原理和应用
第3章索引内容提取86
第4章中文分词的原理与实现144
第5章,让搜索引擎了解自然语言199
第6章Lucene原理和应用303
第7章搜索引擎用户界面370
第8章使用Solr实现企业搜索413
第9章地理信息系统案例分析474
第10章户外活动搜索495的案例分析