博客搜索引擎优化教程(爬网预算问题:机器人元标记:实施正确的“无索引”确实会阻止)

优采云 发布时间: 2021-10-09 02:02

  博客搜索引擎优化教程(爬网预算问题:机器人元标记:实施正确的“无索引”确实会阻止)

  谈论一些我们一遍又一遍地看到的常见页面陷阱是有帮助的。以下几点可以改善您的页面搜索引擎优化。

  1.获取预算

  鉴于像 Google 这样的搜索引擎为每个域(和子域)分配了一定的抓取预算,我总是很惊讶 网站 所有者只是试图将所有内容推送到索引中。而且他们似乎完全不关心爬虫可以访问哪些网站。

  在你的网站上评估和解决这些问题,一个很好的起点是谷歌网站管理员工具(转至:抓取>抓取统计),它可以让你初步了解网站操作地位。成功的图表略有增加——这通常反映了 Google 将选择添加的内容,因此会更频繁地返回。相反,如果图表大幅跳跃或下降,您可能会遇到问题。

  有两种方法可以控制搜索引擎爬虫:使用 robots.txt 指令并在 HTML 标记中实现 robots 元标记(或将其作为 HTTP X-Robots 标头提供)。但是,这两个指令的问题在于它们无法解决您的(潜在的)抓取预算问题:

  机器人元标记:实施正确的“无索引”确实可以防止页面出现在搜索结果中,但该页面仍会被抓取——因此必须使用抓取预算。

  robots.txt:屏蔽网址(或文件夹等)会阻止网站被抓取(这样抓取预算不会浪费);然而,也存在巨大的缺点。一是页面可能仍然(部分)显示在搜索结果中(主要是由于来自其他地方的链接),并且所有入站链接汁都将被切断。换句话说,这些链接对您的排名没有帮助。

  考虑到这些要点,您可以考虑将这些结合起来……但请不要!它根本无法工作。如果使用robots.txt来屏蔽网页,系统将不会抓取网站,因此根本无法读取元机器人代码!

  注意过滤器和排序、分页和其他可能无用的页面。我们经常看到这些只是被推送到索引中,但它们绝对不会或会排名。不要浪费谷歌的资源!

  经验法则:如果您想确保不浪费您的抓取预算,那么只有页面才是真正有用的(所以不要先创建其他页面)。如果您有其他不想出现的人,我将使用元机器人至少利用入站链接资产。

  2.重复内容

  我假设每个人都熟悉重复内容 (DC) 问题,但事实并非如此。由于有大量内部(部分)DC,我总是惊讶地看到有多少站点仍然表现不佳。虽然现在大部分网站都可以处理session ID和tracking参数,但还是有一些“经典”要提醒大家:HTTP和HTTPs都被认为是DC,产品可以在多个类别中使用(不要使用单个产品URL 也可能导致 DC,子域(例如临时服务器)可能会给您带来麻烦。

  换句话说,rel="canonical" 元标记(或 X-Robots Rel-Canonical Header)可以帮助您解决这些问题,但我认为这是解决 DC 问题的第三个最佳选择。在我看来,这一切都取决于效率——所以解决问题的最好方法是确保你只使用一个(规范化的)URL 而不是多个 URL 来提供内容。就这么简单。

  我通常不依赖谷歌所说的“强提示”——因为它暗示他们可能会或可能不会考虑它,但本质上它不像 HTTP 301 重定向那样强制性(它们很容易遵循)。

  同样,它归结为尽可能少的谷歌选择。使用惊人的内容来强制使用一个唯一的 URL,并将预先存在的 URL(例如,旧版本或多个版本)重定向到这个(新)URL,这样您就不会遇到 DC 问题。

  3.正确标记

  关于适当提高价格是否重要以及为什么重要,有许多不同的意见。我并没有真正参与讨论,但我坚信干净简单的标记会有所帮助。这主要是因为我真的不想冒爬虫在尝试从站点提取信息时可能出现“问题”的风险。这也是为什么我认为标记是一件好事:它可以帮助引擎(不仅仅是爬虫)真正理解(部分)内容并理解它。总之,要明白它的意思。

  显然,您必须考虑您可以和想要向 Google(和其他人)提供哪些信息,但如果您不提供数据,他们就会从其他地方获取。所以一般来说,不要错过这个。不仅仅是因为更突出的结果,你获得了更多的点击率——顺便说一下,这很棒——但如果你将结构化数据与 rel="author" 和/或 rel="publisher" 结合起来,它的利润会更大。基本上,Google 正在逐步了解并将经过验证的实体分配给查询集,您当然不想错过这一点。在我看来,谷歌正在*敏*感*词*地发展到你需要成为给定实体的经过验证的权威的地步,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线