搜索引擎优化毕业论文(论文写作指导:聚焦爬虫的工作原理及关键技术分析1.1)
优采云 发布时间: 2021-10-22 05:24搜索引擎优化毕业论文(论文写作指导:聚焦爬虫的工作原理及关键技术分析1.1)
作文指导:请补充
开源网络爬虫在垂直搜索引擎中的应用
介绍
信息时代,针对通用搜索引擎信息量大、查询精度和深度差等缺点,垂直搜索引擎进入了用户认知和使用周期。垂直搜索是针对某个行业的专业搜索引擎。它是在网页库中集成某种类型的专门信息,通过定向子字段提取所需数据进行处理,然后以某种形式返回给用户[1]。与一般搜索引擎相比,它更专注、更具体、更深入。目前,垂直搜索引擎多用于行业信息获取、特征语料库建设等方面,取得了现实而深远的成果。
网络爬虫是一种自动提取和自动下载网页的程序。它可以从互联网上为搜索引擎下载网页,并根据既定的抓取目标,有选择地访问互联网上的网页和相关链接,获取所需信息。根据功能和用途,网络爬虫分为通用爬虫和聚焦爬虫,是搜索引擎的核心组成部分。
1 关注爬虫工作原理及关键技术分析
1.1关注爬虫的工作原理
焦点爬虫是专为查询某个主题而设计的网页采集工具。它不追求*敏*感*词*覆盖,而是将目标设定为抓取与特定主题相关的网页。为面向主题的用户查询组织和准备数据资源。垂直搜索引擎可以利用它来实现网页主题信息的挖掘和发现。聚焦爬虫的工作原理是:
(1)爬虫从起始网页的一个或几个URL链接开始工作;
(2)通过特定的话题相关性算法判断和过滤掉与话题无关的链接;
(3)添加有用链接到要爬取的URL队列;
(4)根据一定的搜索策略,从待爬取的URL队列中选择待爬取的网页的URL;
重复以上步骤,直到满足退出条件停止[2]。
1.2关注爬虫的几个关键技术
根据聚焦爬虫的工作原理,在设计聚焦爬虫时,需要考虑的问题可以讨论如下。
1.2.1 待捕获问题 网站 目标定义和描述
在开发专注爬虫时,应该考虑对爬取目标的定义和描述,无论是具有目标页面特征的页面级信息,还是针对目标页面的结构化数据。因为前者具有结构化数据信息的特点,爬虫抓取信息后,需要从结构化网页中提取相关信息;对于后者,爬虫直接解析网页,提取并处理相关的结构化数据信息,这类爬虫容易定制和适应特定网页模板的结果网站。
1.2.2 Crawler的URL搜索策略问题
在开发聚焦爬虫时,常见的URL搜索策略主要有深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略等[3]。下面给出相应策略的规则分析。
(1) 深度优先搜索策略
搜索策略采用后进先出队列方法。从起始网址开始,一直搜索网页的下一页,直到没有网址链接的网页结束;爬虫返回起始URL地址,继续搜索该URL。其他 URL 链接,直到没有更多的 URL 可供搜索。当所有页面都结束后,URL列表会以闪回的方式将搜索到的URL队列发送到爬虫等待队列。
(2) 广度优先搜索策略
搜索策略采用先进先出队列的方式,从起始网址开始,搜索完初始网页的所有网址链接后,继续搜索下一级网址链接,直到搜索到所有网址为止。URL列表会按照进入队列的顺序发送到爬虫等待队列。
(3) 最佳优先搜索策略
搜索策略采用本地优先搜索算法,从起始URL开始,根据一定的分析算法,预测页面候选的URL,预测目标网页的相似度或主题相关度,当相关度达到一定阈值后即根据相对数值将URL列表发送到爬虫队列进行爬取。
1.2.3 Crawler对网页的分析及主题相关性判断算法
聚焦爬虫在对网页的URL进行扩展时,还需要对网页内容进行分析,提取信息,判断获取到的URL页面是否与采集的主题相关。目前常用的网页分析算法包括:基于网络拓扑、网页内容和领域概念的分析算法[4]。下面给出这三种算法的原理实现。