搜索引擎优化原理(网络爬虫的处理对象是互联网通用的爬虫框架流程介绍)

优采云发布时间: 2022-02-25 04:24

　　搜索引擎的处理对象是互联网网页，现在的网页数量已达数百亿。因此，搜索引擎面临的第一个问题是：如何设计一个高效的下载系统，将如此海量的网络数据传输到本地，在本地形成互联网。网页镜像备份。

　　网络爬虫扮演着这个角色，它是搜索引擎系统中一个非常关键和基础的组成部分。本文主要介绍与网络爬虫相关的技术。虽然爬虫技术经过几十年的发展，整体框架已经比较成熟，但随着网络的不断发展，它也面临着一些具有挑战性的新问题。

　　下图展示了一个通用的爬虫框架流程。首先，从Internet页面中精心挑选一些网页，将这些网页的链接地址作为*敏*感*词*URL，将这些*敏*感*词*URL放入待抓取的URL队列中。爬虫依次读取要爬取的URL，通过DNS解析URL，将链接地址转换为网站服务器对应的IP地址。

　　然后把它和网页的相对路径名交给网页下载器，网页下载器负责下载页面内容。对于下载到本地的网页，一方面是存储在页库中，等待索引等后续处理；另一方面，将下载的网页的URL放入被爬取的URL队列中，记录爬虫系统已经下载了它。网页的URL，避免网页的重复爬取。对于刚刚下载的网页，提取其中收录的所有链接信息，并在抓取的URL队列中进行检查。如果发现该链接没有被爬取，则将该URL放在待爬取URL队列的末尾，然后在爬取调度中下载该URL对应的网页。

　　对于爬虫来说，往往需要网页去重和网页防作弊。

　　以上是一般爬虫的整体流程。从宏观上看，动态爬取过程中的爬虫与所有互联网页面的关系大致可以划分为如图2-2所示的互联网页面。分为5个部分：

　　1.Downloaded web page 采集：爬虫从互联网上下载到本地进行索引的web page 采集。

　　2.过期网页集合：由于网页数量最多，爬虫完成一轮爬取需要较长时间。在爬取过程中，很多下载的网页可能会过期。其原因在于，由于互联网网页处于不断动态变化的过程中，很容易产生本地网页内容与真实互联网网页内容不一致的情况。

　　3.待下载网页集合：即上图中URL队列中待爬取的网页，这些网页即将被爬虫下载。

　　4.我们知道网页的集合：这些网页没有被爬虫下载，也没有出现在待爬的URL队列中，而是通过已经爬取的网页或者URL队列中的网页被爬取，它们可以通过链接关系找到它们，稍后它们将被爬虫爬取和索引。

　　5.不可知网页集合：有些网页无法被爬虫抓取，这些页面构成不可知网页集合。实际上，这部分页面占比很高。

　　根据不同的应用，爬虫系统在很多方面都有所不同。一般来说，爬虫可以分为以下三种：

　　1. 批量爬虫：批量爬虫具有比较明确的爬取范围和目标。当爬虫到达设定的目标时，它会停止爬取过程。至于具体的目标，可能会有所不同，可能设置一定数量的要爬取的网页就够了，也可能是设置爬取所消耗的时间。

　　2.增量爬虫：增量爬虫与批量爬虫不同，它们会不断地爬行。对于被爬取的网页，应该定期更新，因为互联网上的网页是不断变化的，添加新网页、删除网页或更改网页内容是很常见的，增量爬虫需要及时反映这种变化，所以在不断的爬取过程中，要么是爬取新的网页，要么是更新已有的网页。有网页。常见的商业搜索引擎爬虫基本属于这一类。

　　3.Focused Crawter：垂直爬虫专注于特定主题或属于特定行业的网页，例如健康网站，只需要从互联网页面中找到与健康相关的页面内容就足够了，不考虑其他行业的内容。垂直爬虫最大的特点和难点之一是如何识别网页内容是否属于指定行业或主题。从节省系统资源的角度来看，不可能把所有的网页都下载下来再过滤。这种资源浪费太多了。爬虫往往需要在爬取阶段动态识别某个URL是否与主题相关。并且尽量不要去抓取不相关的页面，以达到节省资源的目的。

　　文章内容由亚健康网站长撰写，转载请注明出处，谢谢！

0

2022-02-25

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化原理(网络爬虫的处理对象是互联网通用的爬虫框架流程介绍)

0 个评论

发起人