,Apache基金会推出开源的全文搜索引擎工具包Lucene

优采云 发布时间: 2021-05-30 06:16

  ,Apache基金会推出开源的全文搜索引擎工具包Lucene

  [摘要]:随着网络信息量持续呈指数级增长,人类进入了信息爆炸时代。面对庞大的信息网络,如何快速、便捷地获取有效的信息越来越成为人们关注的问题。搜索引擎的出现,大大缓和了这种矛盾。搜索引擎是一种应用在网络上的软件系统。它以一定的策略采集和发现互联网上的信息,理解、提取、组织和处理信息,并为用户提供检索服务,从而达到导航信息的目的。在当前的网络信息环境下,网络上出现了许多商业网络搜索引擎,如谷歌、百度、搜狗等,极大地方便了网络用户。然而,由于其商业性质,其关键技术对*敏*感*词*内得到广泛应用。本文在现有搜索引擎理论的基础上,以Lucene为基础,结合XML数据存储的思想,从不同层次研究构建以Lucene为核心的搜索引擎。本文的主要工作体现在以下三个方面: 1.分析了当前搜索引擎的工作机制和关键技术,特别是深入分析了Lucene的索引引擎机制和搜索引擎机制,并基于此设计在Lucene Web搜索引擎体系结构上。 2. 对于非严格用 HTML 编写的网页,高效准确地挖掘数据是非常困难的。与HTML 相比,XML 可以更好地实现Web 中的信息共享和交换。本文提出了XML数据提取模块的设计思想。使用XML文件存储待索引文件,可以有效提高索引速度,减少存储索引空间,有效提高数据挖掘的准确性。 3. 针对Lucene原有的基本排序算法查询准确率低,只考虑关键词与文档的相关性,忽略网页本身重要性的缺点,本文对Lucene排序算法进行了改进,改进算法最大的特点是通过调整权重系数来提高页面排序的合理性和查询的准确率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线