搜索引擎禁止的方式优化网站(你有多个方法可以设置规范页面如何确认的工作原理)

优采云 发布时间: 2022-01-20 20:03

  搜索引擎禁止的方式优化网站(你有多个方法可以设置规范页面如何确认的工作原理)

  X-Robots-标签:noindex

  您可能需要一些其他解决方案:

  方法 3:访问​​限制

  如果您希望该页面仅由特定用户访问而不被搜索引擎找到,则可以使用以下三种方法之一:

  设置专门的登录访问系统;HTTP 身份验证(需要密码才能访问);IP白名单(只允许特定IP访问页面)

  此设置方法非常适合 Intranet 环境、仅限成员的内容、暂存内容、测试站点或开发中的站点。它只允许访问搜索引擎以外的特定用户,以便搜索引擎不会索引这些页面。

  您可能需要其他方法:

  方法四:网址删除工具

  这个工具的名称可能会让您对它的工作原理感到困惑。此工具仅暂时隐藏某些内容。Google 仍会查找并抓取内容,但不会向用户显示该页面。在 Google 中会持续 6 个月,在 Bing 中也有相同的功能,但时间只会持续 3 个月。建议将此工具用于非常特殊的情况。例如安全问题、信息泄露、个人身份信息 (PII) 等。对于 Google,您可以使用删除工具,对于 Bing,请参阅如何阻止 URL。

  如果您想更长时间地删除此内容,则除了使用删除工具外,您还必须使用其他方法(noindex 或删除内容)。或者阻止拥有链接的用户继续访问内容(删除或限制访问)。这只是为您提供了一种快速隐藏内容的方法,但从索引中删除仍然需要时间。这个过程可能需要一天的时间。

  方法 5:设置规范页面

  当您有多个版本的页面并且需要将链接权重聚合到特定页面时,您需要做的就是设置规范页面。这主要用于防止重复内容,可以将多个版本页面的权重聚合到特定的索引页面。

  您有多种方法来设置规范页面

  如何确认移除的优先级

  如果您要从 Google 的索引中删除多个页面,则应优先考虑它们。

  高优先级:这些页面通常与安全或机密数据有关。这包括个人数据 (PII)、*敏*感*词*或唯一信息。

  中优先级:通常涉及针对特定用户组的内容。例如公司内部网、仅限员工、仅限会员、登台、测试或正在开发的网站。

  低优先级:这些页面通常涉及重复的内容。例如,同一个页面有多个 URL、带参数的 URL、缓存页面、测试页面或仍在开发中的页面。

  要避免的常见移除问题

  我想介绍一些我经常看到的删除问题以及每个问题的后果。帮助您了解为什么删除不起作用。

  在 robots.txt 中设置 Noindex

  谷歌之前已经支持在 robots.txt 中设置 Noindex。但这不是官方的做法,现在官方取消支持这样的设置方式。很多之前这样设置的网站可能会伤到自己。

  在 robots.txt 中设置不抓取

  抓取和索引是两个不同的东西。即使该页面未设置为可抓取,Google 仍然可以通过外部或内部链接将该页面编入索引。即使 Google 不抓取页面的内容,它仍然使用其他信号(例如指向页面的锚文本)来生成标题并将其显示在搜索结果中。

  设置 Nofollow

  人们经常将此与 noindex 混淆,因为通常有人在页面上使用 nofollow 并希望 Google 不将该页面编入索引。此前,在页面上的链接中设置了 Nofollow,以防止 Google 抓取指向页面的内容。但现在情况发生了变化。Google 仍然可以抓取这些网页。之前也使用过 Nofollow 来限制页面之间的重量转移。同样,不再。过去,如果页面有其他指向该条目的链接,Google 仍然可以通过其他条目发现该页面。

  小费。您可以通过安装 Smart SEO Tool 插件将所有外部链接设置为 nofollow,以防止将页面权限传递给其他 网站 URL 地址。

  您可以在 Ahrefs Site Audit (网站Diagnostics) 中使用页面资源管理器 (Page Explorer) 中的过滤功能来查看 Nofollowed 页面:

  

  一般我们不会对页面上的所有链接都设置nofollow,所以应该没有结果,或者只有少数结果。如果是这样,我建议你检查这些结果,看看这些页面是否需要设置为 Noindex,或者选择合适的方式来处理它们,或者干脆删除页面。

  您还可以在链接资源管理器中查看链接是否单独设置为 Nofollow:

  

  将 Noindex 设置的 Canonical 页面移动到另一个 URL

  这两个设置是冲突的。Noindex 代表从索引中删除一个页面,而 Canonical 告诉 Google 另一个页面是原创页面的权威页面。这可能仅在 Google 忽略 Noindex 标签并使用 Canonical 作为主要信号时才有效。但这并非绝对如此。这是一组算法。可能 Noindex 会被视为一个信号,所以页面无法进行权重整合。

  您可以在站点审核(网站diagnostics)中的页面资源管理器功能中找到指向其他页面的 Noindex 和 Canonical 标签:

  

  设置Noindex后,等待谷歌抓取,然后设置抓取拦截

  通常这发生在以下两种情况:

  页面设置了屏蔽抓取但是已经被索引了,所以设置Noindex,同时开启抓取,让谷歌抓取看到Noindex设置,重新屏蔽抓取。对需要移除的页面设置noindex标签,在谷歌抓取并处理后阻止抓取。

  在任何一种情况下,爬行最终都会被阻止。但如果你还记得,我们之前说过爬取不等于索引。即使这些页面被阻止,它们仍然会被编入索引。

  如何删除不是您的 网站 的内容

  如果您的内容被用于另一个 网站,您可以根据数字千年版权法案 (DMCA) 提出索赔。您可以使用 Google 版权上诉工具提出版权上诉,请求删除任何受版权保护的内容。

  如果您在欧盟,您可以要求删除收录您在法庭上被遗忘的权利的有关您的信息的内容。您可以使用欧盟隐私删除表请求删除个人信息。

  删除图像

  如果您想从 Google 中删除图片,最简单的方法是使用 Robots.txt。前面我们提到,在 robots.txt 中屏蔽并不是官方的做法,但是对于图片资产来说,屏蔽爬取是最好的方式。

  对于单个图像:

  用户代理:Googlebot-Image

  禁止:/images/dogs.jpg

  对于所有图像:

  用户代理:Googlebot-Image

  不允许: /

  最后

  你如何删除你的页面是一个事实。我们已经讨论了一些方法,但是如果您仍然感到困惑,请再看一下流程图。

  您还可以通过 Google 提供的法律问题排查工具删除内容。

  (通过翻译,Park Cheng,文章 with changes)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线