精,准,深的网页索引库消重算法改进算法

优采云 发布时间: 2021-05-27 05:28

  精,准,深的网页索引库消重算法改进算法

  [摘要]:随着网络上信息的数量越来越大,使用通用搜索引擎的信息某些方面的覆盖率和准确性较低,反馈内容不够详细,太多了噪音,维护庞大的Web索引库特别困难,并且在采集和信息存储方面面临严峻挑战。由于普通搜索引擎的上述缺点,垂直搜索引擎正好弥补了这些缺点。它的最大特点是精度,准确性和深度。本文的主要工作如下:1.介绍了垂直搜索引擎的基本技术,包括网络蜘蛛,索引器,搜索器,用户界面系统架构和主题页面分布特征,反向排序索引的建立和中文分词。 2.分析和研究了页面解析和爬网的基本工作原理,与主题相关性的确定,网页的采集和净化,以及优化和实现了页面重复数据删除算法。 3.使用Lucene开发套件实现了小型垂直搜索引擎。 Web蜘蛛用于解析各种类型的文档,包括文本,html,Word,pdf和其他格式。解析文档以提取与主题相关的信息。同时,实现了中文分词,索引器和检索器等模块。 4.本文针对具有重复内容的网页改进并实现了重复数据删除算法。它是对基于页面的传统基于特征字符串的重复数据删除算法的改进。由于重新打印导致URL不同和Web内容相同,因此将存在大量重复页面。纸页重复数据删除算法的改进算法使用主代码和辅助代码来实现特征代码,可以更好地反映网页内容,便于计算。主要代码代表网页文本的段落结构信息,辅助代码用于标识网页文本的内容信息,从而可以利用网页文本的结构和内容信息消除重复的网页,从而大大减少了重复网页的数量。提高重复数据删除的效率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线