如何利用抓取频次提高网站排名和有机流量的技巧
优采云 发布时间: 2021-05-14 22:11
如何利用抓取频次提高网站排名和有机流量的技巧
搜索引擎如何将抓取频率分配给网站?百度蜘蛛爬行频率优化的完整指南
百度蜘蛛的爬网频率更像是SEO概念。在大多数情况下,网站管理员并不关心百度蜘蛛的爬网频率,因为爬网频率几乎对中小企业没有影响网站。
尽管大多数网站管理员不必担心爬网频率,但是如果您正在运行大型网站,则爬网频率是我们可以(并且应该)优化的SEO因子。
当然,随着SEO的发展,爬网频率和排名之间的关系并不简单。爬网本身不是排名因素,但是从特定角度来看,爬网频率对搜索引擎优化具有间接影响。 (这也是蜘蛛池受欢迎的原因。
在本指南中,我将解释相关的爬网概念,搜索引擎如何将爬网频率分配给网站的机制,以及如何充分利用爬网频率来最大化网站排名和自然流技能。
内容
网络蜘蛛的好与坏
网络蜘蛛,爬行器或机器人是计算机程序,可以连续地“访问”并爬行网页以采集某些信息。
根据抓取的目的,可以区分以下几种类型的蜘蛛:
搜索引擎蜘蛛;
Web服务蜘蛛;
黑客蜘蛛;
搜索引擎蜘蛛由百度,谷歌或360等搜索引擎管理。这些蜘蛛可以抓取Internet上的所有页面(前提是可以找到它们)并将其提供给搜索引擎的索引库。
许多Web服务,例如SEO工具,购物,旅行和优惠券网站都有自己的Web索引和蜘蛛程序。例如,WebMeUp有一个名为Blexbot的蜘蛛,它每天可以抓取数百亿个页面,以采集反向链接数据并将数据提供给其链接索引(SEO SpyGlass中使用的链接索引)。
黑客也喜欢繁殖蜘蛛。他们使用蜘蛛测试各种网站漏洞。一旦发现漏洞,他们可能会尝试访问您的网站或服务器。
您可能会听到人们谈论好的蜘蛛和坏的蜘蛛。我以这种方式将它们区分开来:任何设计用于非法目的采集信息的蜘蛛都是不好的,其余的都是很好的。
大多数蜘蛛会在用户代理字符串的帮助下识别自己,并提供URL来了解有关蜘蛛的更多信息:
在本文中,我将重点介绍搜索引擎蜘蛛以及它们如何爬行网站。
了解抓取频率
搜寻频率是搜索引擎蜘蛛在特定时间段内击中网站的次数。例如,百度通常每个月点击我的网站 1000次。我可以说1K是百度每月的抓取频率,请注意,这些抓取工具的数量和频率没有一般限制;
为什么爬网频率很重要?
从逻辑上讲,您应该注意爬网的频率,因为您希望百度尽可能多地发现网站的重要网页,并且还希望它可以在网站上快速找到新内容并抓取频率越高,发生的速度越快。
确定爬网频率
您可以在百度网站管理员工具中找到您的网站抓取频率,例如,您需要确定您的百度抓取频率,登录到您的百度网站管理员帐户,然后转到数据监控–>抓取频率,在这里,您会看到每天的抓取频率。
从以上报告中,我可以看到,百度平均每天爬行我网站 30次。由此可以看出,我的每月抓取频率是30 * 30 = 900。
当然,这个数字很容易更改和波动,但是它将为您提供一个可靠的概念,让您可以确定网站在特定时间内可以爬多少页。
如果需要更详细地查看每个页面的爬网统计信息,则必须分析服务器日志。日志文件的位置取决于服务器配置。
如果不确定如何访问服务器日志,请咨询系统管理员或主机提供商。
原创日志文件难以阅读和分析。要了解这些,您需要绝对水平的正则表达式技能或专门工具。我更喜欢使用光年日志分析工具进行分析。
如何分配爬网频率?
随着搜索引擎的优化,我们还不完全了解搜索引擎如何形成网站的抓取频率。所有博客作者都对网络内容进行分类,搜索引擎使用以下两个因素来确定爬网频率:
受欢迎程度更高的页面将更频繁地被抓取;
Stale-Baidu将不会使相关网页过时。对于网站管理员来说,这意味着如果网页的内容频繁更新,百度将尝试更频繁地对网页进行爬网。
假设网站的抓取频率与反向链接的数量成正比,并且网站在百度眼中的重要性与百度一样,百度希望确保最重要的网页保持最新状态,日期索引。
内部链接如何?您是否可以通过指向更多内部链接来提高特定页面的爬网速度?
为了回答这些问题,我决定检查内部和外部链接以及爬网统计信息之间的相关性。我采集了11个网站数据并进行了简单分析。简而言之,这就是我所做的。
我为11个要分析的站点创建了项目。我计算了到每个网站网页的内部链接的数量。接下来,我运行SEO Spyglass并为相同的11个站点创建了项目,在每个项目中,我检查了统计信息,并复制了带有每个页面的外部链接数的定位URL。
然后,我分析了服务器日志中的爬网统计信息,以了解百度访问每个网页的频率。最后,我将所有这些数据放入电子表格中,并计算内部链接和爬网预算与外部链接和爬网预算之间的相关性。
我发现了一些非常有趣的东西。这是我分析的网站的示例电子表格之一:
我的数据集证明,爬虫的访问次数与外部链接的数量之间具有很强的相关性(0,97 8)。同时,蜘蛛命中与内部链接的相关性非常高弱(0,15 4),这表明反向链接比网站链接更重要。
这是否意味着增加爬网频率的唯一方法是建立链接并发布新内容?如果我们讨论整个网站 Suzaku频率,我会说:经常添加链接并更新网站,[[k14的抓取频率]将成比例地增加。
但是,当我们采用单独的页面时,它将变得更加有趣,正如您将在下面的简介中看到的那样,您甚至可能会浪费大量的抓取频率而没有意识到。通过巧妙地管理频率,通常可以使单个网页的爬网次数增加一倍,但仍与每个网页的反向链接数成正比。
如何充分利用抓取频率
现在,我们发现爬网非常重要,管理爬网频率是否需要更多时间?
您应该(或不应)做很多事情来使搜索蜘蛛消耗更多的网站页。以下是最大化爬网频率功能的操作列表:
1.确保可以抓取重要页面,并且如果在搜索中找到的内容没有提供价值,则该页面将被阻止。
.htaccess和robots.txt不应阻止网站的重要页面。机器人应该能够访问CSS和Javascript文件。同时,您应该阻止不想在搜索中显示的内容,并阻止网站的“正在建设中”区域和动态生成的URL等。
请记住,搜索引擎蜘蛛并不总是遵循robots.txt中收录的说明。您是否在百度搜索结果中看到过这样的摘要?
Robots.txt不保证网页不会显示在搜索结果中:百度仍可以根据外部信息(例如传入链接)确定其相关性。如果要显式阻止对页面建立索引,则应使用noindex机械手元标记或X-Robots-Tag HTTP标头。在这种情况下,您不应在robots.txt中禁止该页面,因为您必须抓取该页面才能查看并遵守该标记。