抓取ajax动态网页java(一个毛病有些301从定向引起的毛病是因为301(组图))

优采云 发布时间: 2022-03-15 03:04

  抓取ajax动态网页java(一个毛病有些301从定向引起的毛病是因为301(组图))

  当 网站 上的页面(例如,当用户在浏览器中访问您的页面或 Google 机器人抓取该页面时)向您的服务器发出请求时,服务器会返回一个 HTTP 状态代码以响应该请求。

  如果它显示 403 状态,您可以忽略它,这意味着您的主机正在阻止 Google bot 抓取。有关所有 HTTP 状态代码的列表,请参阅 Google HTTP 状态代码帮助页面。

  2、站点地图中的错误

  站点地图错误通常会导致 404 错误页面,或者在当前地图中返回 404 错误页面。如果出现 404 错误页面,请检查站点地图中的所有链接,

  Google 将继续抓取您已删除的站点地图,这令人沮丧,但有一些方法可以解决它:确保已在管理工具中删除旧的站点地图。如果您不想被抓取,请确保旧站点地图呈现 404 或重定向到新站点地图。

  谷歌员工 Susan Moskwa 解释说:

  防止 Google bot 抓取的最好方法是让这些 URL(例如旧站点地图)显示 404,当我们看到一个 URL 多次显示 404 时,Google bot 将停止抓取。

  三、重定向错误

  一些故障是由重定向的 301 引起的。执行重定向后的注意事项:

  1:确保它们返回正确的 HTTP 状态代码。

  2:确保您没有任何循环重定向。

  3:确保重定向指向一个有效的网页,而不是404页面,或者其他错误页面,比如503(服务器错误)或者403(停止爬取)

  4:确保重定向不指向空页面。

  四、404 错误

  404错误可能出现在以下几个方面:

  1:删除网站上的网页;

  2:更改了网页名称;

  4:链接到不存在的页面;

  5:其他网站链接到你的网站最后一个不存在的页面;

  6:网站迁移到域名不完全匹配的新网站。

  五、受 robots.txt 限制

  另一个原因是 robots.txt 文件阻止了 Google bot 抓取。如果出现大量爬取问题,第一步应该是检查robots.txt

  6、软404问题

  通常,当有人请求一个不存在的页面时,服务器会返回一个 404 (Not Found) 错误。如果响应请求的页面不存在,除了返回 404 代码外,服务器还会显示 404 页面。这更像是一个标准的“找不到文件”消息,或者是一个旨在向用户提供更多信息的自定义页面。页面内容与服务器返回的 HTTP 响应完全无关。仅仅因为页面显示 404 文件未找到消息并不意味着它是 404 页面。

  

  七、超时

  网站超时也是爬取失败的原因之一。如果超时,Google bot 将停止抓取。超时的故障类型有:

  1:DNS超时,可以使用Nslookup命令检测DNS,DNS超时的最大原因是域名服务商的DNS服务器不稳定。

  2:URL超时,特定页面出现故障,而不是整个域。

  3:robots.txt超时,如果你网站有robots.txt,但是服务器超时,Google bot会认为该文件不存在。

  4:动态网页响应时间过长,页面加载时间过长。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线