谷歌抓取网页视频教程(谷歌搜索控制台常见的4种常见错误方法汇总!)

优采云 发布时间: 2022-01-24 10:07

  谷歌抓取网页视频教程(谷歌搜索控制台常见的4种常见错误方法汇总!)

  一、爬虫在尝试访问您的网址时是否有问题?

  在爬取网站url的过程中,爬虫可能会遇到错误。您可以转到 Google Search Console 中的“抓取错误”报告来检测可能发生这种情况的 URL - 该报告将显示服务器错误和未找到的错误。当然,服务器日志文件也可以为您提供这些信息,以及其他信息,例如爬取的频率,但由于访问和分析服务器日志文件是一种更高级的策略,我们在此不再详细讨论。

  在对爬取错误报告进行任何有意义的操作之前,了解服务器错误和“未找到”错误非常重要。

  4xx 代码:由于客户端错误,搜索引擎爬虫无法访问您的内容,

  4xx 错误是客户端错误,这意味着请求的 URL 收录不正确的语法或无法访问。最常见的 4xx 错误之一是“404 - 未找到”错误。这可能是由于 URL 输入错误、页面删除或重定向失败(仅举几例)造成的。当搜索引擎点击 404 页面时,他们无法访问该 URL。当用户点击 404 页面时,他们可能会感到沮丧并离开。

  5xx 代码:由于服务器错误,搜索引擎爬虫无法访问您的内容,

  5xx 错误是服务器错误,意味着网页所在的服务器无法满足搜索者或搜索引擎访问该页面的请求。在 Google Search Console 的“抓取错误”报告中,有一个专门针对这些错误的选项卡。这通常是因为对 URL 的请求超时,所以 Googlebot 丢弃了该请求。

  幸运的是,有一种方法可以告诉搜索者和搜索引擎您的页面已移动 - 301(永久)重定向。

  

  301重定向

  假设您将页面从 /young-dogs/ 移动到 /puppies/。搜索引擎和用户需要一个从旧 URL 到新 URL 的桥梁。该网桥是 301 重定向。

  

  做和不做301的区别

  301 状态代码本身意味着该页面已永久移动到新位置,因此请避免将 URL 重定向到不相关的页面——旧 URL 的内容实际上并不存在。如果一个页面正在针对某个查询进行排名,而您将其 301 到具有不同内容的 URL,则其排名位置可能会下降,因为使其与该特定查询相关的内容不再存在。301 功能强大,但要负责任地移动网址!

  您也可以选择 302 重定向页面,但它是临时重定向。302路有点绕道。您将暂时通过特定路线推动交通,但不会永远。

  一旦您确定您的网站已针对可抓取性进行了优化,下一步就是确保其可编入索引。

  二、索引:搜索引擎如何解释和存储您的页面?

  一旦您确定您的网站已被抓取,下一步就是确保它可以被编入索引。没错 - 仅仅因为您的 网站 可以被搜索引擎发现和抓取并不一定意味着它会存储在他们的索引中。在前面关于抓取的部分中,我们讨论了搜索引擎如何发现您的页面。索引是存储找到的页面的位置。当爬虫找到一个页面时,搜索引擎会像浏览器一样呈现它。在此过程中,搜索引擎会分析页面的内容。所有信息都存储在其索引中。

  页面会从索引中删除吗?

  页面可能会从索引中删除!URL 可能被删除的一些主要原因包括:

  该 URL 返回“未找到”错误 (4XX) 或服务器错误 (5XX) - 这可能是意外的(页面已移动,未设置 301 重定向)或有意的(页面已删除并 404ed 从索引中删除) )

  该 URL 添加了一个 noindex 元标记 - 网站所有者可以添加此标记以指示搜索引擎从其索引中删除该页面。

  该 URL 因违反搜索引擎的 网站 管理员指南而被手动处罚,因此该 URL 从索引中删除。

  该 URL 已被阻止抓取,并且已添加密码以允许具有密码的访问者访问该页面。

  告诉搜索引擎如何索引您的 网站

  机器人元指令

  元指令(或“元标记”)是您可以向搜索引擎提供有关您希望如何处理您的网页的说明。

  您可以告诉搜索引擎爬虫诸如“不要在搜索结果中将此页面编入索引”或“不要将任何链接权限传递给此页面上的任何链接”。这些指令通过 HTML 页面的 .../body>

  此示例将所有搜索引擎排除在索引页面和跟踪该页面上的任何链接之外。如果要排除多个爬虫,例如 googlebot 和 bing,可以使用多个 bot 排除标记。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线