php禁止网页抓取(Google新的SEO代言人GaryIllyes帖子里的主要内容内容)

优采云 发布时间: 2021-10-05 00:24

  php禁止网页抓取(Google新的SEO代言人GaryIllyes帖子里的主要内容内容)

  1 月,谷歌新任 SEO 发言人 Gary Illyes 在谷歌官方博客上发帖:What Crawl Budget Means for Googlebot,讨论与搜索引擎蜘蛛的爬行份额相关的问题。对于大中型网站来说,这是一个非常重要的SEO问题,有时会成为网站自然流量的瓶颈。

  今天的帖子总结了Gary Illyes的帖子的主要内容以及后续的很多博客和论坛帖子,以及我自己的一些案例和理解。

  强调一下,以下概念也适用于百度。

  搜索引擎蜘蛛的抓取份额是多少?

  顾名思义,爬取份额是搜索引擎蜘蛛在网站上爬取一个页面所花费的总时间的上限。对于特定的网站,搜索引擎蜘蛛在这个网站上花费的总时间是相对固定的,不会无限爬取网站的所有页面。

  英文Google for crawling share 使用crawl budget,字面意思是爬行预算。我不认为它可以解释它的含义,所以我使用爬网份额来表达这个概念。

  什么决定了抓取份额?这涉及到爬行要求和爬行速度限制。

  爬行需求

  爬取需求,或者说爬取需求,指的是搜索引擎“想要”爬取多少个特定的网站页面。

  有两个主要因素决定了对爬行的需求。首先是页面权重。网站上有多少页面达到基本页面权重,搜索引擎想要抓取多少页面。二是索引库中的页面是否太长时间没有更新。毕竟是页面权重,权重高的页面不会更新太久。

  页面权重和 网站 权重密切相关。增加网站的权重可以让搜索引擎愿意抓取更多的页面。

  爬行速度限制

  搜索引擎蜘蛛不会为了抓取更多页面而拖拽其他网站服务器。因此,会为某个网站设置一个爬取限速,即爬取限速,即服务器可以容忍的上限,在这个限速内,蜘蛛爬取不会拖慢服务器并影响用户访问。

  服务器响应速度够快,这个速度限制提高一点,爬行加快,服务器响应速度降低,速度限制降低,爬行变慢,甚至爬行停止。

  因此,爬网速率限制是搜索引擎“可以”爬取的页面数。

  什么决定了抓取份额?

  抓取份额是同时考虑了抓取需求和抓取速度限制的结果,即搜索引擎“想要”抓取,同时“可以”抓取的页面数。

  网站 权重高,页面内容质量高,页面多,服务器速度快,爬取份额大。

  小网站不用担心抢份额

  小网站页面数量少,即使网站权重低,服务器慢,不管搜索引擎蜘蛛每天爬多少,通常至少几百页可以爬取。网站又被抓取了,所以网站拥有数千页根本不用担心抢分享。网站 数万页通常没什么大不了的。如果每天数百次访问会降低服务器速度,那么 SEO 就不是主要考虑因素。

  大中型网站可能需要考虑抢份额

  对于几十万页以上的大中型网站来说,可能需要考虑捕获份额不够的问题。

  爬网份额是不够的。比如网站有1000万个页面,搜索引擎每天只能抓取几万个页面。爬取一次网站可能需要几个月,甚至一年,这也可能意味着一些重要的页面无法爬取,所以没有排名,或者重要页面无法及时更新。

  想要网站页面被及时完整地抓取,首先要保证服务器足够快,页面足够小。如果网站有大量优质数据,爬取份额会受到爬取速度的限制。提高页面速度直接提高了抓取速度限制,从而增加了抓取份额。

  百度站长平台和谷歌搜索控制台都有抓取数据。如下图,某网站百度的抓取频率:

  

  上图显示,SEO每天发一个小网站这个级别。页面爬取频率和爬取时间(取决于服务器速度和页面大小)是没有关系的,说明爬取份额没有用完,不用担心。.

  有时,爬取频率和爬取时间有一定的对应关系,如下图为另一个较大的网站:

  

  可以看出,爬取时间的提升(减小页面大小、提高服务器速度、优化数据库)明显导致爬取频率增加,导致爬取更多页面收录,再次遍历网站更快。

  Google Search Console 中较大网站的示例:

  

  顶部是抓取的页面数,中间是抓取的数据量。除非服务器出现故障,这两个应该是对应的。底部是页面抓取时间。可以看到,页面下载速度已经够快了,每天爬几百万页面都没有问题。

  当然,前面说过,能抓取百万页是一方面,搜索引擎要不要抓取是另一方面。

  大 网站 经常需要考虑爬网份额的另一个原因是不要将有限的爬网份额浪费在无意义的页面爬行上。结果,本该被爬取的重要页面没有被爬取的机会。

  浪费抓取份额的典型页面是:

  以上页面被大量抓取,抓取份额可能用完,但是应该抓取的页面没有抓取。

  如何保存抓取共享?

  当然,首先是减小页面文件大小,提高服务器速度,优化数据库,减少爬取时间。

  然后,尽量避免上面列出的浪费性抢股。有些是内容质量问题,有些是网站结构问题。如果是结构问题,最简单的方法是禁止爬取robots文件,但是会浪费一些页面权重,因为权重只能输入。

  在某些情况下,使用链接 nofollow 属性可以节省抓取共享。小网站,因为爬取份额用不完,加nofollow没有意义。网站,nofollow 可以在一定程度上控制权重的流动和分配。精心设计的nofollow会降低无意义页面的权重,增加重要页面的权重。搜索引擎在爬取时会使用一个 URL 爬取列表。要抓取的网址按页面权重排序。如果增加重要页面的权重,将首先抓取重要页面。无意义页面的权重可能很低,以至于搜索引擎不想爬行。

  最后几点说明:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线