搜索引擎优化毕业论文(论文写作指导:聚焦爬虫的工作原理及关键技术分析1.1)

优采云 发布时间: 2021-10-22 05:24

  搜索引擎优化毕业论文(论文写作指导:聚焦爬虫的工作原理及关键技术分析1.1)

  作文指导:请补充

  开源网络爬虫在垂直搜索引擎中的应用

  介绍

  信息时代,针对通用搜索引擎信息量大、查询精度和深度差等缺点,垂直搜索引擎进入了用户认知和使用周期。垂直搜索是针对某个行业的专业搜索引擎。它是在网页库中集成某种类型的专门信息,通过定向子字段提取所需数据进行处理,然后以某种形式返回给用户[1]。与一般搜索引擎相比,它更专注、更具体、更深入。目前,垂直搜索引擎多用于行业信息获取、特征语料库建设等方面,取得了现实而深远的成果。

  网络爬虫是一种自动提取和自动下载网页的程序。它可以从互联网上为搜索引擎下载网页,并根据既定的抓取目标,有选择地访问互联网上的网页和相关链接,获取所需信息。根据功能和用途,网络爬虫分为通用爬虫和聚焦爬虫,是搜索引擎的核心组成部分。

  1 关注爬虫工作原理及关键技术分析

  1.1关注爬虫的工作原理

  焦点爬虫是专为查询某个主题而设计的网页采集工具。它不追求*敏*感*词*覆盖,而是将目标设定为抓取与特定主题相关的网页。为面向主题的用户查询组织和准备数据资源。垂直搜索引擎可以利用它来实现网页主题信息的挖掘和发现。聚焦爬虫的工作原理是:

  (1)爬虫从起始网页的一个或几个URL链接开始工作;

  (2)通过特定的话题相关性算法判断和过滤掉与话题无关的链接;

  (3)添加有用链接到要爬取的URL队列;

  (4)根据一定的搜索策略,从待爬取的URL队列中选择待爬取的网页的URL;

  重复以上步骤,直到满足退出条件停止[2]。

  1.2关注爬虫的几个关键技术

  根据聚焦爬虫的工作原理,在设计聚焦爬虫时,需要考虑的问题可以讨论如下。

  1.2.1 待捕获问题 网站 目标定义和描述

  在开发专注爬虫时,应该考虑对爬取目标的定义和描述,无论是具有目标页面特征的页面级信息,还是针对目标页面的结构化数据。因为前者具有结构化数据信息的特点,爬虫抓取信息后,需要从结构化网页中提取相关信息;对于后者,爬虫直接解析网页,提取并处理相关的结构化数据信息,这类爬虫容易定制和适应特定网页模板的结果网站。

  1.2.2 Crawler的URL搜索策略问题

  在开发聚焦爬虫时,常见的URL搜索策略主要有深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略等[3]。下面给出相应策略的规则分析。

  (1) 深度优先搜索策略

  搜索策略采用后进先出队列方法。从起始网址开始,一直搜索网页的下一页,直到没有网址链接的网页结束;爬虫返回起始URL地址,继续搜索该URL。其他 URL 链接,直到没有更多的 URL 可供搜索。当所有页面都结束后,URL列表会以闪回的方式将搜索到的URL队列发送到爬虫等待队列。

  (2) 广度优先搜索策略

  搜索策略采用先进先出队列的方式,从起始网址开始,搜索完初始网页的所有网址链接后,继续搜索下一级网址链接,直到搜索到所有网址为止。URL列表会按照进入队列的顺序发送到爬虫等待队列。

  (3) 最佳优先搜索策略

  搜索策略采用本地优先搜索算法,从起始URL开始,根据一定的分析算法,预测页面候选的URL,预测目标网页的相似度或主题相关度,当相关度达到一定阈值后即根据相对数值将URL列表发送到爬虫队列进行爬取。

  1.2.3 Crawler对网页的分析及主题相关性判断算法

  聚焦爬虫在对网页的URL进行扩展时,还需要对网页内容进行分析,提取信息,判断获取到的URL页面是否与采集的主题相关。目前常用的网页分析算法包括:基于网络拓扑、网页内容和领域概念的分析算法[4]。下面给出这三种算法的原理实现。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线