动态网页抓取(一下爬行网站的次数时多时少爬行抓取策略是什么?)

优采云 发布时间: 2022-01-16 19:08

  动态网页抓取(一下爬行网站的次数时多时少爬行抓取策略是什么?)

  我们在做网站优化的时候,SEOer们经常会关注网站的蜘蛛爬取日志。我们会发现蜘蛛爬网站的次数或多或少,那么蜘蛛爬的策略是什么?下面简单介绍一下蜘蛛爬取策略。

  在蜘蛛眼里,互联网的网页主要可以分为四类:已爬取页面、待爬取页面、可爬取页面、暗网页面。被爬取的页面是蜘蛛已经爬取的页面。待爬取页面:已在待爬取队列中,但尚未爬取。可爬取页面:这些页面可以通过互联网上已有的链接关系找到,增量爬虫可以随着爬取的深入发现这些页面。暗网上的页面:无法通过现有链接找到的页面。

  当spider从一个entry开始爬取时,这个页面有很多导出链接,spider会选择其中一个链接进行爬取,进入后会有很多导出链接。蜘蛛爬行主要有两种方法:深度优先策略和广度优先策略。深度优先就是沿着一条路走,直到无处可去。广度优先意味着一个页面上有多个传出链接。首先,按照这些链接抓取所有链接的页面,然后抓取链接页面上的外链到的页面。

  理论上,只要时间足够,蜘蛛可以爬取所有的页面,但是搜索引擎的资源也是有限的,不可能无限制地爬取。搜索引擎一般采用深度和广度相结合的策略。一般来说,网站的权重越高,蜘蛛爬取的频率越高,爬取的内容也越多。

  以上两种策略纯粹是从蜘蛛爬行的角度出发的。在实际过程中,影响爬虫爬取较大的因素有:重要页面的优先爬取策略和大型网站的优先爬取。重要页面的重要性主要取决于该页面的传入链接的数量和质量。所谓大站,是指搜索引擎眼中用户体验好、服务器稳定、内容丰富的网站。

  一般情况下,网站的入站链接越多,入站链接所在页面的权限越高,被爬取的概率就越高,所以SEOer做的很好网站 internal 在优化的同时,要做好优质的外链。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线