php抓取网页标签(【技巧】网站管理员Googlebot的基本操作技巧(一))
优采云 发布时间: 2022-03-04 16:10php抓取网页标签(【技巧】网站管理员Googlebot的基本操作技巧(一))
1xx:收到请求,继续处理
2xx:操作成功接收、分析、接受
3xx:此请求的完成必须进一步处理
4xx:请求收录错误的语法或无法完成
5xx:服务器未能执行完全有效的请求
1xx(临时回复)
表示临时响应并要求请求者继续执行操作的状态代码。
代码说明
100(继续)请求者应继续请求。服务器返回此代码表示已收到请求的第一部分并正在等待其余部分。101 (Switch protocol) 请求者已请求服务器切换协议,服务器已确认并准备切换。
2xx(成功)
指示服务器成功处理请求的状态代码。
代码说明
200 (Success) 服务器已成功处理请求。通常,这意味着服务器提供了所请求的网页。如果您的 robots.txt 文件显示此状态,则表示 Googlebot 已成功检索该文件。201 (Created) 请求成功,服务器创建了新资源。202 (Accepted) 服务器已接受请求但尚未处理。203 (Unauthorized Information) 服务器已成功处理请求,但返回的信息可能来自其他来源。204 (No Content) 服务器成功处理请求但没有返回任何内容。205 (Content reset) 服务器成功处理请求但没有返回内容。与 204 响应不同,此响应要求请求者重置文档视图(例如,清除表单内容以输入新内容)。206(部分内容)服务器成功处理了部分 GET 请求。
3xx(重定向)
要完成请求,需要采取进一步行动。通常,这些状态代码用于重定向。Google 建议您对每个请求使用不超过 5 个重定向。您可以使用 网站管理工具查看 Googlebot 是否在抓取重定向页面时遇到问题。诊断下的网络抓取页面列出了 Googlebot 由于重定向错误而无法抓取的网址。
代码说明
300(多选) 服务器可以对请求执行各种操作。服务器可以根据请求者(用户代理)选择一个动作,或者提供一个动作列表供请求者选择。301(永久移动)请求的网页已永久移动到新位置。当服务器返回此响应(对 GET 或 HEAD 请求)时,它会自动将请求者重定向到新位置。您应该使用此代码告诉 Googlebot 页面或 网站 已永久移动到新位置。302(暂时移动)服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置进行未来的请求。此代码类似于响应 GET 或 HEAD 请求的 301 代码,会自动将请求者带到不同的位置,但您不应使用此代码告诉 Googlebot 页面或 网站 已移动,因为Googlebot 将继续抓取旧位置和索引。303(查看其他位置)当请求者应该对不同位置使用单独的 GET 请求来检索响应时,服务器会返回此代码。对于除 HEAD 之外的所有请求,服务器会自动转到其他位置。304(未修改)自上次请求以来,请求的页面尚未修改。当服务器返回此响应时,不会返回任何网页内容。如果自请求者的最后一次请求以来页面没有更改,您应该配置您的服务器以返回此响应(称为 If-Modified-Since HTTP 标头)。这样可以节省带宽和开销,因为服务器可以告诉 Googlebot 该页面自上次抓取以来没有更改。305(使用代理)请求者只能使用代理访问请求的网页。如果服务器返回这个响应,也表明请求者应该使用代理。307(临时重定向)服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置进行将来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码,并且会自动将请求者带到不同的位置,但您不应使用此代码告诉 Googlebot 页面或 网站 已移动,因为 Googlebot将继续抓取旧位置和索引。
4xx(请求错误)
这些状态代码表明请求可能出错,阻止服务器处理它。
代码说明
400 (Bad Request) 服务器不理解请求的语法。401(未授权)请求需要身份验证。服务器可能会为需要登录的网页返回此响应。403 (Forbidden) 服务器拒绝了请求。如果您在尝试抓取 网站 上的有效页面时看到 Googlebot 收到此状态代码(您可以在 Google 网站Admin Tools Diagnostics 下的网络抓取页面上看到此代码),您的服务器或主机可能是拒绝 Googlebot 访问。404 (Not Found) 服务器找不到请求的网页。例如,如果请求的网页在服务器上不存在,则服务器通常会返回此代码。如果您的 网站 上没有 robots.txt 文件,并且您在 Google 的 网站 管理工具的诊断标签中的 robots.txt 页面上看到此状态,那么这是正确的状态。但是,如果您有 robots.txt 文件并看到此状态,则您的 robots.txt 文件可能命名不正确或位置错误(它应该位于顶级域,称为 robots.txt)。如果您在 Googlebot 尝试抓取的网址上看到此状态(在“诊断”标签中的 HTTP 错误页面上),这意味着 Googlebot 可能正在跟踪来自另一个页面的死链接(旧链接或输入错误的链接) . 405(禁用方法)禁用请求中指定的方法。如果您在 Googlebot 尝试抓取的网址上看到此状态(在“诊断”标签中的 HTTP 错误页面上),这意味着 Googlebot 可能正在跟踪来自另一个页面的死链接(旧链接或输入错误的链接) . 405(禁用方法)禁用请求中指定的方法。如果您在 Googlebot 尝试抓取的网址上看到此状态(在“诊断”标签中的 HTTP 错误页面上),这意味着 Googlebot 可能正在跟踪来自另一个页面的死链接(旧链接或输入错误的链接) . 405(禁用方法)禁用请求中指定的方法。
406(不可接受)无法使用请求的内容属性响应请求的网页。407(需要代理授权)此状态码类似于 401(未授权),但指定请求者应授权使用代理。如果服务器返回此响应,它还指示请求者应使用的代理。408(请求超时)服务器在等待请求时超时。409 (Conflict) 服务器在完成请求时发生冲突。服务器必须在响应中收录有关冲突的信息。服务器可能会返回此代码以响应与先前请求冲突的 PUT 请求,以及两个请求之间差异的列表。410 (Deleted) 如果请求的资源已被永久删除,服务器返回此响应。此代码类似于 404(未找到)代码,但有时在资源曾经存在但现在不存在的情况下代替 404 代码。如果资源已被永久删除,则应使用 301 指定资源的新位置。411(需要有效长度)服务器将不接受没有有效负载长度标头字段的请求。412 (Precondition not met) 服务器不满足请求者在请求中设置的前提条件之一。413 (Request Entity Too Large) 服务器无法处理请求,因为请求实体太大,服务器无法处理。414 (Requested URI Too Long) 请求的 URI(通常是 URL)太长,服务器无法处理。415 (Unsupported media type) 请求的页面不支持请求的格式。416(请求的范围不符合要求)如果页面不能提供请求的范围,服务器返回此状态码。417 (Expectation not met) 服务器不满足“Expectation”请求头域的要求。
5xx(服务器错误)
这些状态代码表明服务器在尝试处理请求时遇到了内部错误。这些错误可能是服务器本身的错误,而不是请求。
代码说明
500(内部服务器错误)服务器遇到错误,无法完成请求。501(尚未实现)服务器没有能力完成请求。例如,当服务器无法识别请求方法时,可能会返回此代码。502 (Bad Gateway) 作为网关或代理的服务器收到来自上游服务器的无效响应。503(服务不可用)服务器当前不可用(由于过载或停机维护)。通常,这只是暂时的状态。504 (Gateway Timeout) 服务器作为网关或代理,但没有及时收到上游服务器的请求。505 (HTTP Version Not Supported) 服务器不支持请求中使用的 HTTP 协议版本。
英文版:
100:继续
101:交换协议
102:处理
200:好的
201:已创建
202:接受
203:非权威信息
204:无内容
205:重置内容
206:部分内容
207:多状态
300:多项选择
301:永久移动
302:找到
303:见其他
304:未修改
305:使用代理
306:(未使用)
307:临时重定向
400:错误请求
401:未经授权
402:已付款
403:禁止
404:找不到文件
405:不允许的方法
406:不可接受
407:需要代理验证
408:请求超时
409:冲突
410:走了
411:所需长度
412:前置条件失败
413请求实体太大
414:请求 URI 太大
415:不支持的媒体类型
416:请求的范围不可满足
417:预期失败
422:无法处理的实体
423:锁定
424:依赖失败
500内部服务器错误
501:未实施
502错误的网关
503服务不可用
504网关超时