网页爬虫抓取百度图片(搜索引擎1聚焦爬虫工作原理及关键技术概述(组图))
优采云 发布时间: 2021-10-01 18:09网页爬虫抓取百度图片(搜索引擎1聚焦爬虫工作原理及关键技术概述(组图))
网络爬虫技术简介 随着互联网的飞速发展,万维网已经成为海量信息的载体。如何有效地提取和利用这些信息成为一个巨大的挑战。搜索引擎,如传统的通用搜索引擎AltaVista、百度、雅虎!谷歌等作为辅助人们检索信息的工具,成为用户访问万维网的入口和向导。但是,这些通用的搜索引擎也有一定的局限性,例如:
(1)不同领域、不同背景的用户往往有不同的检索目的和需求。一般搜索引擎返回的结果中含有大量用户不关心的网页。
(2)通用搜索引擎的目标是最大化网络覆盖。有限的搜索引擎服务器资源和无限的网络数据资源之间的矛盾将进一步加深。
(3) 随着万维网上数据形式的丰富和网络技术的不断发展,图像、数据库、音视频多媒体等不同数据大量出现,一般的搜索引擎往往对此无能为力。具有密集信息内容和一定结构的数据。很好地发现和获得。
(4) 大多数通用搜索引擎都提供基于关键字的搜索,难以支持基于语义信息的查询。
为了解决上述问题,针对相关网络资源进行针对性抓取的聚焦爬虫应运而生。Focus Crawler 是一个自动下载网页的程序。它根据建立的爬取目标有选择地访问万维网上的网页和相关链接,以获取所需的信息。与通用网络爬虫不同,聚焦爬虫不追求大的覆盖范围,而是将目标设定为抓取与特定主题内容相关的网页,并为面向主题的用户查询准备数据资源。
1 重点介绍爬虫的工作原理及关键技术概述
网络爬虫是一种自动提取网页的程序。它从万维网下载网页以供搜索引擎使用。它是搜索引擎的重要组成部分。传统爬虫从一个或几个初始网页的网址开始,获取初始网页上的网址。在抓取网页的过程中,不断地从当前页面中提取新的URL并放入队列中,直到满足系统的某个停止条件,如图所示。流程图如图1(a)所示。聚焦爬虫的工作流程比较复杂。需要按照一定的网页分析算法过滤与主题无关的链接,保留有用的链接,放入URL队列等待被抓取。然后,它会根据一定的搜索策略从队列中选择下一个要抓取的网页的URL,重复上述过程,直到达到系统的某个条件时停止,如图1(b)所示。另外,爬虫爬过的所有网页都会被系统存储起来,进行一定的分析、过滤、索引,以备以后查询检索;对于专注的爬虫,这个过程中得到的分析结果还是可以对后续的爬虫过程给出反馈和指导的。 这个过程中得到的分析结果还是有可能对后续的爬取过程给出反馈和指导的。 这个过程中得到的分析结果还是有可能对后续的爬取过程给出反馈和指导的。
与一般网络爬虫相比,聚焦爬虫还需要解决三个主要问题:
(1) 爬取目标的描述或定义;
(2)网页或数据的分析和过滤;
(3) URL 搜索策略。
爬取目标的描述和定义是确定如何制定网页分析算法和网址搜索策略的基础。网页分析算法和候选网址排序算法是决定搜索引擎提供的服务形式和网页抓取行为的关键。这两部分的算法是密切相关的。
2 捕获目标描述
现有的聚焦爬虫对爬取目标的描述可以分为三种类型:基于目标网页的特征、基于目标数据模型和基于领域概念。
爬虫根据目标网页的特征抓取、存储和索引的对象一般为网站或网页。根据*敏*感*词*样品的获取方式,可分为:
(1) 预先给定的初始抓取*敏*感*词*样本;
(2)预先给定的网页分类目录和分类目录对应的*敏*感*词*样本,如Yahoo!分类结构等;
(3)由用户行为决定的抓取目标示例,分为:
a) 用户浏览过程中显示标记的抓样;
b) 通过用户日志挖掘获取访问模式和相关样本。
其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。
现有的聚焦爬虫描述或定义爬取目标可以分为三种类型:基于目标网页特征、基于目标数据模式和基于领域概念。
爬虫根据目标网页的特征抓取、存储和索引的对象一般为网站或网页。具体方法可以分为:(1)预先给定的初始抓*敏*感*词*样本;(2)预先给定的网页分类目录和分类目录对应的*敏*感*词*样本),如Yahoo!分类结构等;(3)用户行为确定的爬取目标示例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等.