抓取ajax动态网页java(一个毛病有些301从定向引起的毛病是因为301(组图))
优采云 发布时间: 2022-03-15 03:04抓取ajax动态网页java(一个毛病有些301从定向引起的毛病是因为301(组图))
当 网站 上的页面(例如,当用户在浏览器中访问您的页面或 Google 机器人抓取该页面时)向您的服务器发出请求时,服务器会返回一个 HTTP 状态代码以响应该请求。
如果它显示 403 状态,您可以忽略它,这意味着您的主机正在阻止 Google bot 抓取。有关所有 HTTP 状态代码的列表,请参阅 Google HTTP 状态代码帮助页面。
2、站点地图中的错误
站点地图错误通常会导致 404 错误页面,或者在当前地图中返回 404 错误页面。如果出现 404 错误页面,请检查站点地图中的所有链接,
Google 将继续抓取您已删除的站点地图,这令人沮丧,但有一些方法可以解决它:确保已在管理工具中删除旧的站点地图。如果您不想被抓取,请确保旧站点地图呈现 404 或重定向到新站点地图。
谷歌员工 Susan Moskwa 解释说:
防止 Google bot 抓取的最好方法是让这些 URL(例如旧站点地图)显示 404,当我们看到一个 URL 多次显示 404 时,Google bot 将停止抓取。
三、重定向错误
一些故障是由重定向的 301 引起的。执行重定向后的注意事项:
1:确保它们返回正确的 HTTP 状态代码。
2:确保您没有任何循环重定向。
3:确保重定向指向一个有效的网页,而不是404页面,或者其他错误页面,比如503(服务器错误)或者403(停止爬取)
4:确保重定向不指向空页面。
四、404 错误
404错误可能出现在以下几个方面:
1:删除网站上的网页;
2:更改了网页名称;
4:链接到不存在的页面;
5:其他网站链接到你的网站最后一个不存在的页面;
6:网站迁移到域名不完全匹配的新网站。
五、受 robots.txt 限制
另一个原因是 robots.txt 文件阻止了 Google bot 抓取。如果出现大量爬取问题,第一步应该是检查robots.txt
6、软404问题
通常,当有人请求一个不存在的页面时,服务器会返回一个 404 (Not Found) 错误。如果响应请求的页面不存在,除了返回 404 代码外,服务器还会显示 404 页面。这更像是一个标准的“找不到文件”消息,或者是一个旨在向用户提供更多信息的自定义页面。页面内容与服务器返回的 HTTP 响应完全无关。仅仅因为页面显示 404 文件未找到消息并不意味着它是 404 页面。
七、超时
网站超时也是爬取失败的原因之一。如果超时,Google bot 将停止抓取。超时的故障类型有:
1:DNS超时,可以使用Nslookup命令检测DNS,DNS超时的最大原因是域名服务商的DNS服务器不稳定。
2:URL超时,特定页面出现故障,而不是整个域。
3:robots.txt超时,如果你网站有robots.txt,但是服务器超时,Google bot会认为该文件不存在。
4:动态网页响应时间过长,页面加载时间过长。