搜索引擎优化毕业论文(3.利用lucene开发包维护庞大的网页索引库特别困难)

优采云 发布时间: 2021-11-23 16:08

  搜索引擎优化毕业论文(3.利用lucene开发包维护庞大的网页索引库特别困难)

  [摘要] 随着网页信息量的不断增加,使用通用搜索引擎搜索某一方面信息的覆盖率和准确率较低,反馈内容不够详细,噪音过大,庞大的网页索引库特别难维护,采集信息和存储面临严峻挑战。由于通用搜索引擎的上述缺点,垂直搜索引擎正好弥补了这些缺点。它最大的特点是精准、准确和深度。论文的主要工作如下:1.介绍了垂直搜索引擎的基本技术,包括网络蜘蛛、索引器、检索器、用户界面系统架构和主题页面分布特征,倒排索引的建立和中文分词。2. 分析研究了页面解析爬取的基本工作原理、主题相关性的判断、网页的采集和净化,并优化并实现了一种页面去重算法。3. 使用lucene 开发工具包实现了一个小型垂直搜索引擎。网络蜘蛛用于解析各种类型的文档,包括文本、html、Word、pdf 等格式。解析文档以提取与主题相关的信息。同时实现了中文分词、索引器、检索器等模块。4. 论文改进并实现了重复内容网页的去重算法。它是对传统的基于特征字符串的页面去重算法的改进。因转载导致网址不同,网页内容相同,会出现大量重复页面。纸页去重算法的改进算法采用主码和辅助码实现特征码。特征码可以更好地反映网页内容,便于计算。主码表示网页文本的段落结构信息,辅助码用于识别网页文本的内容信息,从而可以利用网页文本的结构和内容信息来消除重复的网页,大大提高重复数据删除的效率。因转载导致网址不同,网页内容相同,会出现大量重复页面。纸页去重算法的改进算法采用主码和辅助码实现特征码。特征码可以更好地反映网页内容,便于计算。主码表示网页文本的段落结构信息,辅助码用于识别网页文本的内容信息,从而可以利用网页文本的结构和内容信息来消除重复的网页,大大提高重复数据删除的效率。因转载导致网址不同,网页内容相同,会出现大量重复页面。纸页去重算法的改进算法采用主码和辅助码实现特征码。特征码可以更好地反映网页内容,便于计算。主码表示网页文本的段落结构信息,辅助码用于识别网页文本的内容信息,从而可以利用网页文本的结构和内容信息来消除重复的网页,大大提高重复数据删除的效率。纸页去重算法的改进算法采用主码和辅助码实现特征码。特征码可以更好地反映网页内容,便于计算。主码表示网页文本的段落结构信息,辅助码用于识别网页文本的内容信息,从而可以利用网页文本的结构和内容信息来消除重复的网页,大大提高重复数据删除的效率。纸页去重算法的改进算法采用主码和辅助码实现特征码。特征码可以更好地反映网页内容,便于计算。主码表示网页文本的段落结构信息,辅助码用于识别网页文本的内容信息,从而可以利用网页文本的结构和内容信息来消除重复的网页,大大提高重复数据删除的效率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线