谷歌抓取网页视频教程(一个中的错误是因为301从定向引起的执行重定向注意什么)

优采云 发布时间: 2021-11-27 23:15

  谷歌抓取网页视频教程(一个中的错误是因为301从定向引起的执行重定向注意什么)

  当 网站 上的网页(例如,当用户在浏览器中访问您的网页或 Googlebot 抓取网页时)向您的服务器发出请求时,服务器会以 HTTP 状态代码响应该请求.

  如果有 403 状态,您可以忽略它,这表明您的主机阻止了 Googlebot 抓取。所有HTTP状态码的列表文件可以参考谷歌HTTP状态码帮助页面。

  二、站点地图错误

  站点地图错误通常会导致 404 错误页面,或在当前地图上返回 404 错误页面。如果出现 404 错误页面,请检查站点地图中的所有链接。

  Google 将继续抓取您已删除的站点地图。这很郁闷,不过有解决办法:确保在管理员工具中删除旧的Sitemap。如果您不想被抓取,请确保旧站点地图显示 404 或重定向到新站点地图。

  来自 Google 的 Susan Moskwa 解释说:

  防止Googlebot抓取最好的办法就是让这些网址(比如旧的站点地图)出现404。当我们看到一个网址有多个404时,Googlebot就会停止抓取。

  三、 重定向错误

  有些错误是由 301 重定向引起的。重定向后需要注意的事项:

  1:确保它们返回正确的 HTTP 状态代码。

  2:确保没有循环重定向。

  3:确保重定向指向的是有效页面,而不是404页面,或其他错误页面,如503(服务器错误)或403(禁止抓取)

  4:确保重定向没有指向空页面。

  四、404 错误

  404 错误可能出现在以下区域:

  1:删除网站上的网页;

  2:更改了网页名称;

  4:链接到不存在的页面;

  5:其他不存在的网站链接到你的网站上一页;

  6:网站迁移到与网站不完全匹配的新域名。

  五、受robots.txt限制

  另一个原因是 robots.txt 文件会阻止 Googlebot 抓取。如果出现大量抓取错误,第一步应该是检查robots.txt

  六、软404错误

  通常,当某人请求的页面不存在时,服务器会返回 404(未找到)错误。除了响应请求的页面没有返回 404 码外,服务器也会显示 404 页面。这可能是标准的“未找到文件”消息,或者用户打算提供更多信息,也可能是自定义页面。页面的内容与服务器返回的 HTTP 响应完全无关。仅仅因为页面显示 404 文件未找到消息并不意味着它是 404 页面。

  

  七、超时

  网站超时也是抓取错误的原因之一。如果发生超时,Googlebot 将停止抓取。超时错误的类型是:

  1:DNS超时,可以使用Nslookup命令检测DNS。DNS超时的最大因素是域名服务商的DNS服务器不稳定。

  2:URL 超时,错误发生在特定页面,而不是整个域。

  3:Robots.txt 超时。如果您 网站 有 robots.txt 但服务器超时,Googlebot 会认为该文件不存在。

  4:动态网页响应时间过长,导致页面加载时间过长。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线