htmlunit抓取动态网页(2019独角兽企业重金招聘Python工程师用户体验策略(图))

优采云发布时间: 2022-03-03 11:17

　　2019独角兽企业招聘Python工程师标准>>>

　　四、更新政策

　　互联网实时变化并且非常动态。网页更新策略主要决定何时更新之前已经下载的页面。常见的更新策略有以下三种：

　　1.历史参考政策

　　顾名思义，它根据页面过去的历史更新数据来预测未来页面何时会发生变化。通常，预测是通过泊松过程建模来进行的。

　　2.用户体验策略

　　尽管搜索引擎可以为某个查询返回大量结果，但用户通常只关注结果的前几页。因此，爬虫系统可以优先更新那些实际在查询结果前几页的页面，然后再更新后面的那些页面。这个更新策略也需要用到历史信息。UX 策略保留网页的多个历史版本，并根据每个过去内容更改对搜索质量的影响得出一个平均值，并以此值作为决定何时重新抓取的基础。

　　3.聚类抽样策略

　　上面提到的两种更新策略都有一个前提：需要网页的历史信息。这种方式存在两个问题：第一，如果系统为每个系统保存多个版本的历史信息，无疑会增加很多系统负担；第二，如果新网页完全没有历史信息，就无法确定更新策略。

　　该策略认为网页具有许多属性，具有相似属性的网页可以认为具有相似的更新频率。计算某一类别网页的更新频率，只需对该类别的网页进行采样，并将其更新周期作为整个类别的更新周期。基本思路如下：

　　五、分布式抓取系统结构

　　一般来说，爬虫系统需要处理整个互联网上数以亿计的网页。单个爬虫不可能完成这样的任务。通常需要多个爬虫程序一起处理它们。一般来说，爬虫系统往往是分布式的三层结构。如图所示：

　　最底层是分布在不同地理位置的数据中心。每个数据中心有多个爬虫服务器，每个爬虫服务器可能部署多套爬虫程序。这样就构成了一个基本的分布式爬虫系统。

　　对于数据中心中的不同服务器，有几种方法可以协同工作：

　　1.主从

　　主从基本结构如图：

　　对于主从类型，有一个专门的主服务器来维护要爬取的URL队列，负责每次将URL分发给不同的从服务器，从服务器负责实际的网页下载工作。Master服务器除了维护要爬取的URL队列和分发URL外，还负责调解每个Slave服务器的负载。为了避免一些从服务器过于空闲或过度工作。

　　在这种模式下，Master往往会成为系统的瓶颈。

　　2.点对点

　　等价的基本结构如图所示：

　　在这种模式下，所有爬虫服务器之间的分工没有区别。每个爬取服务器可以从待爬取的URL队列中获取URL，然后计算该URL主域名的哈希值H，进而计算H mod m（其中m为服务器数量，取上图例如，m 对于 3），计算出来的数字就是处理 URL 的主机号。

　　例子：假设对于URL，计算器hash值H=8，m=3，那么H mod m=2，那么编号为2的服务器会抓取该链接。假设此时服务器 0 获取了 URL，它会将 URL 传输到服务器 2，服务器 2 将获取它。

　　这种模式有一个问题，当一个服务器死掉或添加一个新服务器时，所有 URL 的哈希余数的结果都会改变。也就是说，这种方法不能很好地扩展。针对这种情况，提出了另一种改进方案。这种改进的方案是一致的散列以确定服务器划分。其基本结构如图所示：

　　一致散列对 URL 的主域名进行散列，并将其映射到 0-232 范围内的数字。这个范围平均分配给m台服务器，根据主URL域名的hash运算值的范围来确定要爬取哪个服务器。

　　如果某台服务器出现问题，本应负责该服务器的网页将由下一个服务器顺时针获取。在这种情况下，即使一台服务器出现问题，也不会影响其他工作。

　　转载于：

0

2022-03-03

htmlunit抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

htmlunit抓取动态网页(2019独角兽企业重金招聘Python工程师用户体验策略(图))

0 个评论

发起人