谷歌抓取网页视频教程(一个中的错误是因为301从定向引起的执行重定向注意什么)
优采云 发布时间: 2021-11-27 23:15谷歌抓取网页视频教程(一个中的错误是因为301从定向引起的执行重定向注意什么)
当 网站 上的网页(例如,当用户在浏览器中访问您的网页或 Googlebot 抓取网页时)向您的服务器发出请求时,服务器会以 HTTP 状态代码响应该请求.
如果有 403 状态,您可以忽略它,这表明您的主机阻止了 Googlebot 抓取。所有HTTP状态码的列表文件可以参考谷歌HTTP状态码帮助页面。
二、站点地图错误
站点地图错误通常会导致 404 错误页面,或在当前地图上返回 404 错误页面。如果出现 404 错误页面,请检查站点地图中的所有链接。
Google 将继续抓取您已删除的站点地图。这很郁闷,不过有解决办法:确保在管理员工具中删除旧的Sitemap。如果您不想被抓取,请确保旧站点地图显示 404 或重定向到新站点地图。
来自 Google 的 Susan Moskwa 解释说:
防止Googlebot抓取最好的办法就是让这些网址(比如旧的站点地图)出现404。当我们看到一个网址有多个404时,Googlebot就会停止抓取。
三、 重定向错误
有些错误是由 301 重定向引起的。重定向后需要注意的事项:
1:确保它们返回正确的 HTTP 状态代码。
2:确保没有循环重定向。
3:确保重定向指向的是有效页面,而不是404页面,或其他错误页面,如503(服务器错误)或403(禁止抓取)
4:确保重定向没有指向空页面。
四、404 错误
404 错误可能出现在以下区域:
1:删除网站上的网页;
2:更改了网页名称;
4:链接到不存在的页面;
5:其他不存在的网站链接到你的网站上一页;
6:网站迁移到与网站不完全匹配的新域名。
五、受robots.txt限制
另一个原因是 robots.txt 文件会阻止 Googlebot 抓取。如果出现大量抓取错误,第一步应该是检查robots.txt
六、软404错误
通常,当某人请求的页面不存在时,服务器会返回 404(未找到)错误。除了响应请求的页面没有返回 404 码外,服务器也会显示 404 页面。这可能是标准的“未找到文件”消息,或者用户打算提供更多信息,也可能是自定义页面。页面的内容与服务器返回的 HTTP 响应完全无关。仅仅因为页面显示 404 文件未找到消息并不意味着它是 404 页面。
七、超时
网站超时也是抓取错误的原因之一。如果发生超时,Googlebot 将停止抓取。超时错误的类型是:
1:DNS超时,可以使用Nslookup命令检测DNS。DNS超时的最大因素是域名服务商的DNS服务器不稳定。
2:URL 超时,错误发生在特定页面,而不是整个域。
3:Robots.txt 超时。如果您 网站 有 robots.txt 但服务器超时,Googlebot 会认为该文件不存在。
4:动态网页响应时间过长,导致页面加载时间过长。