网站内容更新策略(什么时候去爬取合适?3.3网页更新策略书摘)

优采云 发布时间: 2022-03-15 11:25

  网站内容更新策略(什么时候去爬取合适?3.3网页更新策略书摘)

  本节节选自华章出版社《精通Python网络爬虫:核心技术、框架与项目》一书第3章,3.3,作者魏伟,更多章节,可以访问云查看齐社区“华章电脑”公众号。

  3.3网页更新政策

  网站 网页经常更新。作为爬虫,网页更新后,我们需要再次爬取这些网页,那么什么时候爬取合适呢?如果网站更新太慢,爬虫爬得太频繁,势必会增加爬虫和网站服务器的压力。如果 网站 更新较快,但爬取时间间隔较短。如果太长,我们爬取的内容版本会太旧,不利于新内容的爬取。显然,网站的更新频率越接近爬虫访问网站的频率,效果越好。当然,在爬虫服务器资源有限的情况下,此时爬虫也需要根据相应的策略制作不同的网页。

  具体来说,常见的网页更新策略有三种:用户体验策略、历史数据策略、聚类分析策略等,下面我们分别进行讲解。

  当搜索引擎查询某个关键词时,就会出现一个排名结果。在排名结果中,通常会有大量的网页。但是,大多数用户只会关注排名靠前的网页。因此,在爬虫服务器资源有限的情况下,爬虫会优先更新排名结果最高的网页。这个更新策略,我们称之为用户体验策略,那么在这个策略中,爬虫究竟是什么时候抓取这些排名靠前的页面呢?此时,在抓取过程中会保留对应网页的多个历史版本,并进行相应的分析,根据内容更新、搜索质量影响来确定这些网页的抓取周期,

  此外,我们还可以使用历史数据策略来确定爬取网页更新的周期。例如,我们可以根据某个网页的历史更新数据,通过泊松过程建模等手段,预测该网页的下一次更新时间,从而确定下一次抓取该网页的时间,即确定更新周期。

  以上两种策略都需要历史数据作为基础。有时候,如果一个网页是一个新的网页,会没有对应的历史数据,如果要根据历史数据进行分析,爬虫服务器需要保存对应网页的历史版本信息,这无疑带来了爬虫服务器。更多的压力和负担。如果要解决这些问题,就需要采用新的更新策略。最常用的方法是聚类分析。那么什么是聚类分析策略呢?

  在生活中,相信大家对分类都很熟悉。比如我们去商场,商场里的商品一般都是分类的,方便顾客购买相应的商品。此时,产品分类的类别是固定的。制定。但是,如果商品数量巨大,无法提前进行分类,或者说根本不知道会有哪些种类的商品,该如何解决商品的分类问题呢?

  这时候可以通过聚类来解决问题,根据商品之间的共性进行相应的分析。

  具有较多共性的商品归为一类。此时,商品被聚类到的类别的数量是不确定的,但可以保证被聚类的商品之间一定存在某种共性。要实现的想法。

  同样,在我们的聚类算法中,也会有类似的分析过程。

  我们可以通过将聚类分析算法应用于爬虫对网页的更新来做到这一点,如图 3-4 所示。

  

  1)首先,经过大量研究,发现网页可能有不同的内容,但总的来说,属性相似的网页更新频率相似。这是聚类分析算法应用于爬虫网页更新的前提和指导思想。

  2)有了1中的指导思想,我们可以先对大量的网页进行聚类分析。聚类后​​会形成多个类,每个类中的网页具有相似的属性,即具有相似更新频率的一般性。

  3)聚类完成后,我们可以对同一个聚类中的网页进行采样,然后计算采样结果的平均更新值来确定每个聚类的爬取频率。

  以上就是使用爬虫爬取网页时常见的三种更新策略。在我们掌握了他们的算法思路之后,我们在进行爬虫的实际开发时,编译出来的爬虫会更加高效的执行逻辑。会更合理。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线