网页抓取qq(【每日一题】Google的编制流水线错误及处理方法 )

优采云 发布时间: 2022-01-19 04:25

  网页抓取qq(【每日一题】Google的编制流水线错误及处理方法

)

  2xx(成功)

  3xx(重定向)

  Googlebot 将跟踪最多 10 个重定向。如果抓取工具在 10 次重定向内未收到内容,Search Console 将在 网站 的索引覆盖率报告中显示重定向错误。Googlebot 跟踪的重定向数量取决于用户代理;例如,Googlebot(智能手机版)的重定向值可能与 Googlebot Image 不同。

  4xx(客户端错误)

  返回 4xx 状态代码的 URL 不会被 Google 的索引管道考虑编入索引,并且已编入索引且返回 4xx 状态代码的 URL 将从索引中删除。

  400(错误请求)、401(未经授权)、403(禁止)、404(未找到)、410(消失)、411(需要长度):除 429 之外的所有 4xx 错误均以相同方式处理:Googlebot 向索引管道发出信号内容不存在。

  索引管道从索引中删除以前编入索引的 URL。系统不会处理新遇到的 404 页面。爬行频率会逐渐降低。

  429(请求过多):Googlebot 将 429 状态码视为服务器过载的信号,这被视为服务器错误。

  5xx(服务器错误)

  5xx 和 429 服务器错误会提示 Google 的爬虫暂时放慢爬取速度。已编入索引的 URL 将保留在索引中,但最终会被丢弃。

  500(内部服务器错误)、502(网关错误)、503(服务不可用):Googlebot 将减慢 网站 的抓取速度。抓取速度下降与返回服务器错误的特定 URL 的数量成正比。Google 的索引管道会从索引 URL 中删除始终返回服务器错误的 URL。

  总结:4**和5**会严重影响收录。

  网络连接错误和 DNS 错误

  网络连接错误和 DNS 错误会迅速对您的网址在 Google 搜索中的显示方式产生负面影响。Googlebot 处理网络超时、连接重置和 DNS 错误的方式与 5xx 服务器错误类似。如果发生网络连接错误,爬网速度将立即开始减慢,因为网络连接错误表明服务器可能无法处理服务负载。无法访问的索引 URL 将在几天内从 Google 的索引中删除。Search Console 可能会针对每个相应的错误生成错误。

  注意:DNS(Domain Name Server)的作用是根据域名找出IP地址。如果要访问一个域名,首先要通过DNS找到它的IP地址为151.101.129.69。

  调试网络连接错误

  这些错误可能在 Google 开始抓取网址之前或在 Google 抓取网址时发生。诊断这些错误可能会更加困难,因为错误可能在服务器响应之前发生,并且没有可以指示问题的状态代码。调试超时和连接重置错误:

  负责处理网络流量的任何服务器组件都可能发生错误。例如,过载的网络接口可能会丢弃导致超时(无法建立连接)的数据包并重置连接(发送 RST 数据包,因为端口被错误地关闭)。

  调试 DNS 错误

  DNS 错误的最常见原因是配置错误,但也可能是由于防火墙规则阻止了 Googlebot DNS 查询。要调试 DNS 错误:

  检查防火墙规则。确保没有任何 Google IP 被防火墙规则阻止,并且允许 UDP 和 TCP 请求。

  查看 DNS 记录。仔细检查您的 A 和 CNAME 记录是否分别指向正确的 IP 地址和主机名。例如:

  $ dig +nocmd example.com a +noall +answer

$ dig +nocmd www.example.com cname +noall +answer

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线