搜索引擎优化毕业论文(论文写作指导：聚焦爬虫的工作原理及关键技术分析1.1)

优采云发布时间: 2021-10-22 05:24

　　作文指导：请补充

　　开源网络爬虫在垂直搜索引擎中的应用

　　介绍

　　信息时代，针对通用搜索引擎信息量大、查询精度和深度差等缺点，垂直搜索引擎进入了用户认知和使用周期。垂直搜索是针对某个行业的专业搜索引擎。它是在网页库中集成某种类型的专门信息，通过定向子字段提取所需数据进行处理，然后以某种形式返回给用户[1]。与一般搜索引擎相比，它更专注、更具体、更深入。目前，垂直搜索引擎多用于行业信息获取、特征语料库建设等方面，取得了现实而深远的成果。

　　网络爬虫是一种自动提取和自动下载网页的程序。它可以从互联网上为搜索引擎下载网页，并根据既定的抓取目标，有选择地访问互联网上的网页和相关链接，获取所需信息。根据功能和用途，网络爬虫分为通用爬虫和聚焦爬虫，是搜索引擎的核心组成部分。

　　1 关注爬虫工作原理及关键技术分析

　　1.1关注爬虫的工作原理

　　焦点爬虫是专为查询某个主题而设计的网页采集工具。它不追求*敏*感*词*覆盖，而是将目标设定为抓取与特定主题相关的网页。为面向主题的用户查询组织和准备数据资源。垂直搜索引擎可以利用它来实现网页主题信息的挖掘和发现。聚焦爬虫的工作原理是：

　　（1）爬虫从起始网页的一个或几个URL链接开始工作；

　　（2）通过特定的话题相关性算法判断和过滤掉与话题无关的链接；

　　(3）添加有用链接到要爬取的URL队列；

　　（4）根据一定的搜索策略，从待爬取的URL队列中选择待爬取的网页的URL；

　　重复以上步骤，直到满足退出条件停止[2]。

　　1.2关注爬虫的几个关键技术

　　根据聚焦爬虫的工作原理，在设计聚焦爬虫时，需要考虑的问题可以讨论如下。

　　1.2.1 待捕获问题网站目标定义和描述

　　在开发专注爬虫时，应该考虑对爬取目标的定义和描述，无论是具有目标页面特征的页面级信息，还是针对目标页面的结构化数据。因为前者具有结构化数据信息的特点，爬虫抓取信息后，需要从结构化网页中提取相关信息；对于后者，爬虫直接解析网页，提取并处理相关的结构化数据信息，这类爬虫容易定制和适应特定网页模板的结果网站。

　　1.2.2 Crawler的URL搜索策略问题

　　在开发聚焦爬虫时，常见的URL搜索策略主要有深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略等[3]。下面给出相应策略的规则分析。

　　(1）深度优先搜索策略

　　搜索策略采用后进先出队列方法。从起始网址开始，一直搜索网页的下一页，直到没有网址链接的网页结束；爬虫返回起始URL地址，继续搜索该URL。其他 URL 链接，直到没有更多的 URL 可供搜索。当所有页面都结束后，URL列表会以闪回的方式将搜索到的URL队列发送到爬虫等待队列。

　　(2）广度优先搜索策略

　　搜索策略采用先进先出队列的方式，从起始网址开始，搜索完初始网页的所有网址链接后，继续搜索下一级网址链接，直到搜索到所有网址为止。URL列表会按照进入队列的顺序发送到爬虫等待队列。

　　(3）最佳优先搜索策略

　　搜索策略采用本地优先搜索算法，从起始URL开始，根据一定的分析算法，预测页面候选的URL，预测目标网页的相似度或主题相关度，当相关度达到一定阈值后即根据相对数值将URL列表发送到爬虫队列进行爬取。

　　1.2.3 Crawler对网页的分析及主题相关性判断算法

　　聚焦爬虫在对网页的URL进行扩展时，还需要对网页内容进行分析，提取信息，判断获取到的URL页面是否与采集的主题相关。目前常用的网页分析算法包括：基于网络拓扑、网页内容和领域概念的分析算法[4]。下面给出这三种算法的原理实现。

0

2021-10-22

搜索引擎优化毕业论文

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化毕业论文(论文写作指导：聚焦爬虫的工作原理及关键技术分析1.1)

0 个评论

发起人