博客搜索引擎优化教程(爬网预算问题：机器人元标记：实施正确的“无索引”确实会阻止)

优采云发布时间: 2021-10-09 02:02

　　谈论一些我们一遍又一遍地看到的常见页面陷阱是有帮助的。以下几点可以改善您的页面搜索引擎优化。

　　1.获取预算

　　鉴于像 Google 这样的搜索引擎为每个域（和子域）分配了一定的抓取预算，我总是很惊讶网站所有者只是试图将所有内容推送到索引中。而且他们似乎完全不关心爬虫可以访问哪些网站。

　　在你的网站上评估和解决这些问题，一个很好的起点是谷歌网站管理员工具（转至：抓取>抓取统计），它可以让你初步了解网站操作地位。成功的图表略有增加——这通常反映了 Google 将选择添加的内容，因此会更频繁地返回。相反，如果图表大幅跳跃或下降，您可能会遇到问题。

　　有两种方法可以控制搜索引擎爬虫：使用 robots.txt 指令并在 HTML 标记中实现 robots 元标记（或将其作为 HTTP X-Robots 标头提供）。但是，这两个指令的问题在于它们无法解决您的（潜在的）抓取预算问题：

　　机器人元标记：实施正确的“无索引”确实可以防止页面出现在搜索结果中，但该页面仍会被抓取——因此必须使用抓取预算。

　　robots.txt：屏蔽网址（或文件夹等）会阻止网站被抓取（这样抓取预算不会浪费）；然而，也存在巨大的缺点。一是页面可能仍然（部分）显示在搜索结果中（主要是由于来自其他地方的链接），并且所有入站链接汁都将被切断。换句话说，这些链接对您的排名没有帮助。

　　考虑到这些要点，您可以考虑将这些结合起来……但请不要！它根本无法工作。如果使用robots.txt来屏蔽网页，系统将不会抓取网站，因此根本无法读取元机器人代码！

　　注意过滤器和排序、分页和其他可能无用的页面。我们经常看到这些只是被推送到索引中，但它们绝对不会或会排名。不要浪费谷歌的资源！

　　经验法则：如果您想确保不浪费您的抓取预算，那么只有页面才是真正有用的（所以不要先创建其他页面）。如果您有其他不想出现的人，我将使用元机器人至少利用入站链接资产。

　　2.重复内容

　　我假设每个人都熟悉重复内容 (DC) 问题，但事实并非如此。由于有大量内部（部分）DC，我总是惊讶地看到有多少站点仍然表现不佳。虽然现在大部分网站都可以处理session ID和tracking参数，但还是有一些“经典”要提醒大家：HTTP和HTTPs都被认为是DC，产品可以在多个类别中使用（不要使用单个产品URL 也可能导致 DC，子域（例如临时服务器）可能会给您带来麻烦。

　　换句话说，rel="canonical" 元标记（或 X-Robots Rel-Canonical Header）可以帮助您解决这些问题，但我认为这是解决 DC 问题的第三个最佳选择。在我看来，这一切都取决于效率——所以解决问题的最好方法是确保你只使用一个（规范化的）URL 而不是多个 URL 来提供内容。就这么简单。

　　我通常不依赖谷歌所说的“强提示”——因为它暗示他们可能会或可能不会考虑它，但本质上它不像 HTTP 301 重定向那样强制性（它们很容易遵循）。

　　同样，它归结为尽可能少的谷歌选择。使用惊人的内容来强制使用一个唯一的 URL，并将预先存在的 URL（例如，旧版本或多个版本）重定向到这个（新）URL，这样您就不会遇到 DC 问题。

　　3.正确标记

　　关于适当提高价格是否重要以及为什么重要，有许多不同的意见。我并没有真正参与讨论，但我坚信干净简单的标记会有所帮助。这主要是因为我真的不想冒爬虫在尝试从站点提取信息时可能出现“问题”的风险。这也是为什么我认为标记是一件好事：它可以帮助引擎（不仅仅是爬虫）真正理解（部分）内容并理解它。总之，要明白它的意思。

　　显然，您必须考虑您可以和想要向 Google（和其他人）提供哪些信息，但如果您不提供数据，他们就会从其他地方获取。所以一般来说，不要错过这个。不仅仅是因为更突出的结果，你获得了更多的点击率——顺便说一下，这很棒——但如果你将结构化数据与 rel="author" 和/或 rel="publisher" 结合起来，它的利润会更大。基本上，Google 正在逐步了解并将经过验证的实体分配给查询集，您当然不想错过这一点。在我看来，谷歌正在*敏*感*词*地发展到你需要成为给定实体的经过验证的权威的地步，

0

2021-10-09

博客搜索引擎优化教程

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

博客搜索引擎优化教程(爬网预算问题：机器人元标记：实施正确的“无索引”确实会阻止)

0 个评论

发起人

AI时代内容工厂

博客搜索引擎优化教程(爬网预算问题：机器人元标记：实施正确的“无索引”确实会阻止)

0 个评论

发起人

相关问题