中文Web主题信息获取与检索技术的研究和开发经验
优采云 发布时间: 2021-07-04 18:03中文Web主题信息获取与检索技术的研究和开发经验
[摘要]:搜索引擎是人们获取海量网络信息的主要工具,是网络研究和应用的关键内容。随着互联网信息的爆炸式增长和信息多元化的发展,话题搜索引擎正成为研究热点和发展趋势。本文对中文Web学科信息获取与检索技术进行了一些研究,设计并实现了一个以subject information采集FRobot为核心的林业学科搜索引擎FIS(Forestry Information Search)。本文首先介绍了目前综合搜索引擎的发展、现状、分类、工作原理,并指出其不足和发展方向。随后,总结了基于主题的搜索引擎的背景和工作方法,讨论了信息检索模型、主题信息采集策略、Fish算法、加权索引和检索技术等关键搜索引擎技术。在此基础上,采用成熟的向量空间模型(VSM)和改进的Fish算法,结合html文档分析、首页关联、内容预测、数据库全文索引等多种技术,进行比较。理想的主题搜索引擎设计方案及林业主题搜索引擎系统FIS的实现。该系统面向林业领域,保证了林业信息的完整收录和及时更新,避免了强大的搜索噪音,提高了检索效率,能够快速、全面、准确地提供林业专题信息查询。最后总结了林业学科搜索引擎系统的研发经验,并指出了该系统的应用前景和下一步研究方向。