php登录抓取网页指定内容(2016年注册*敏*感*词*考试常见的状态码为及应对技巧)

优采云 发布时间: 2021-12-31 01:08

  php登录抓取网页指定内容(2016年注册*敏*感*词*考试常见的状态码为及应对技巧)

  一些常见的状态代码是:

  200-服务器成功返回网页

  404-请求的页面不存在

  503-服务器超时

  4xx 状态码

  这些状态码表明请求可能是错误的,这会阻止服务器进行处理。

  

  400 (Bad request) 服务器不理解请求的语法。

  401(身份验证错误)此页面需要授权。您可能不想将此页面收录在索引中。如果该页面在您的站点地图中列出,您可以将其删除。但是,如果您将其保留在站点地图中,我们将不会抓取该页面或将其编入索引(尽管该页面将继续以错误状态列出)。如果我们将其作为搜索抓取的一部分进行抓取,您可以在我们的 网站 管理员信息中查看原因。

  403 (Forbidden) 服务器拒绝了请求。如果您在 Googlebot 尝试抓取您的 网站 上的有效网页时看到此状态代码(您可以在 Google 网站 管理工具诊断下的网络抓取页面上看到此信息),这可能是您的拒绝 Googlebot 访问的服务器或主机。

  404 (Not Found) 服务器找不到请求的页面。例如,对于服务器上不存在的网页,通常会返回此代码。

  如果您的 网站 上没有 robots.txt 文件,并且您在 Google 网站 管理员工具的“诊断”选项卡的 robots.txt 页面上看到此状态代码,则这是正确的状态代码. 但是,如果您有 robots.txt 文件并看到此状态代码,则表示您的 robots.txt 文件可能命名不正确或位置错误(该文件应位于顶级域中并命名为 robots.txt )。

  如果您看到 Googlebot 尝试抓取的网址的此状态代码(在“诊断”标签的 HTTP 错误页面上),则意味着 Googlebot 可能正在跟踪指向另一个页面的无效链接(旧链接或输入错误)。

  405 (Method Disabled) 禁用请求中指定的方法。

  406 (Not Accepted) 无法响应具有请求内容特征的请求网页。

  407(需要代理授权)这个状态码和401类似,但是指定的请求者必须被授权使用代理。如果服务器返回此响应,则还表明请求者应该使用代理。

  408(请求超时)服务器在等待请求时超时。

  409 (Conflict) 服务器在完成请求时遇到冲突。服务器必须在响应中收录有关冲突的信息。当响应与前一个请求冲突的 PUT 请求时,服务器可能会返回此代码和两个请求之间的差异列表。

  410 (Deleted) 请求的资源被永久删除后,服务器返回此响应。此代码类似于404(未找到)代码,但有时用于在资源以前存在但现在不存在时替换404代码。如果资源已被永久删除,则应使用 301 指定资源的新位置。

  411(需要有效长度)服务器不接受没有有效内容长度头字段的请求。

  412(不满足先决条件)服务器不满足请求者在请求中设置的先决条件之一。

  413 (Request entity is too large) 服务器无法处理请求,因为请求实体太大,超出了服务器的处理能力。

  414(请求的URI太长)请求的URI(通常是一个URL)太长,服务器无法处理。

  415(不支持的媒体类型)请求的页面不支持请求的格式。

  416(请求的范围不符合要求)如果页面不能提供请求的范围,服务器会返回这个状态码。

  417(未满足预期值)服务器不满足“预期”请求头字段的要求。

  5xx 状态码

  这些状态代码表明在处理请求时服务器中发生了内部错误。这些错误可能是服务器本身的错误,而不是请求错误。

  500(内部服务器错误)服务器遇到错误,无法完成请求。

  501(尚未实现)服务器没有完成请求的功能。例如,当请求方法未被识别时,服务器将返回此代码。

  502 (Bad Gateway) 服务器作为网关或代理,收到来自上游服务器的无效响应。

  503(服务不可用)服务器当前不可用(由于过载或维护关闭)。通常,这只是一种临时状态。

  504 (Gateway timeout) 服务器作为网关或代理,但没有及时收到上游服务器的请求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线