基于链接上下文信息的主题网络爬虫技术的研究(1)

优采云 发布时间: 2021-06-04 01:46

  基于链接上下文信息的主题网络爬虫技术的研究(1)

  [摘要]:传统搜索引擎存在很多问题:定位不准确、搜索结果不专业、排名不合理等。为了解决传统搜索引擎面临的问题,面向特定主题的垂直搜索引擎应运而生。在详细介绍了垂直搜索引擎的研究背景、研究现状及相关技术后,本文主要完成了以下研究工作:(1)主题网络爬虫技术研究第一,三种算法的设计与实现:基于链接上下文信息的主题描述算法,基于支持向量机(SVM)分类模型的主题相关性算法,基于SVM分类模型的主题爬虫算法,然后在实验爬虫算法中通过精度和召回率对主题进行评估. 实验表明,本文设计的爬虫算法不仅可以高效抓取主题相关的网页,还可以避免主题漂移的现象。(2)网页结构化信息提取技术研究 本文设计的网页结构化信息提取算法article 基于标签序列,算法主要包括两部分s:样本训练模块和主题信息提取模块。样本训练模块首先生成每个样本的学科区域标签序列、位置向量和学科属性格式文件,然后将生成的规则保存到规则库中。话题信息提取模块首先生成页面标签序列,然后判断待提取的区域标签的内容是否收录话题信息,最后将提取的信息存储到话题信息数据库中。 (3)专家机器人垂直搜索引擎构建和实现首先设计了垂直搜索引擎的整体结构,然后设计了几个关键模块。其中,页面排名模块综合考虑了HITS排名算法,PageRank排名算法,和专家科研成果的引用次数;网页去重模块通过改进的哈希算法判断文档是否相似;缓存模块通过缓存查询的网页来提高用户体验和加快网页访问速度。使用开源框架Lucene设计了一个专家机器人垂直搜索引擎。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线