浏览器抓取网页(说句心里话,“显示友好HTTP错误信息”对大家而言一点都不友好)
优采云 发布时间: 2022-04-18 20:45浏览器抓取网页(说句心里话,“显示友好HTTP错误信息”对大家而言一点都不友好)
老实说,“显示友好的 HTTP 错误消息”对每个人都不是友好的。网页打不开的时候,老是提示“当前网页无法显示”,很郁闷。但是,取消选中它后,您可以清楚地看到错误。如果自己不能解决,可以在谷歌和百度搜索错误信息,全部解决。在我看来,取消勾选才是真正的友好!
打开Internet Explorer,单击顶部的“工具”,选择“Internet选项”,然后单击“高级”,取消选中“显示友好的http错误消息”,单击“应用”,然后单击“确定”。
<IMG border=0 src="/manage/eWebEditor/uploadfile/20111023011650309.jpg">
如果您使用360安全浏览器,除了必须在Internet Explorer中完成设置外,您还需要在360安全浏览器中进行设置。方法是:点击顶部的“工具”,然后点击“选项”,点击左侧的“其他”,取消勾选“网站错误时显示友好的错误页面”,设置完成。
<IMG border=0 src="/manage/eWebEditor/uploadfile/20111023011711398.jpg">
再次打开报错的网页地址,发现浏览器可以准确显示错误原因,然后根据网页上的错误信息判断程序错误原因并解决。
一些常见的状态码是:
1xx(临时回复)
用于指示需要请求者采取行动才能继续的临时响应的状态代码。
代码说明
100(续)
请求者应继续请求。返回此代码的服务器意味着服务器已收到请求的第一部分,现在正在等待接收其余部分。
101(交换协议)
请求者已请求服务器切换协议,服务器已确认并准备切换。
2xx(成功)
用于指示服务器已成功处理请求的状态码。
代码说明
200(成功)
服务器已成功处理请求。通常,这意味着服务器提供了所请求的网页。如果您的 robots.txt 文件显示此状态,则表明 Googlebot 已成功检索该文件。
201(创建)
请求成功,服务器已创建新资源。
202(接受)
服务器已接受请求但尚未处理。
203(未经授权的信息)
服务器成功处理了请求,但返回的信息可能来自其他来源。
204(无内容)
服务器成功处理了请求,但没有返回任何内容。
205(重置内容)
服务器成功处理了请求,但没有返回任何内容。与 204 响应不同,此响应要求请求者重置文档视图(例如,清除表单内容以输入新内容)。
206(部分内容)
服务器成功处理了部分 GET 请求。
3xx(重定向)
要完成请求,您需要采取进一步的措施。通常,这些状态代码会永远重定向。Google 建议您对每个请求使用少于 5 个重定向。您可以使用 网站管理工具查看 Googlebot 是否在抓取您重定向的网页时遇到问题。
代码说明
300(多种选择)
服务器可以根据请求执行各种操作。服务器可以根据请求者(用户代理)选择一个动作,或者提供一个动作列表供请求者选择。
301(永久移动)
请求的页面已永久移动到新位置。当服务器返回此响应(作为对 GET 或 HEAD 请求的响应)时,它会自动将请求者重定向到新位置。您应该使用此代码通知 Googlebot 页面或 网站 已永久移动到新位置。
302(临时搬家)
服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置来处理未来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码,并自动将请求者重定向到不同的位置。但是,您不应使用此代码通知 Googlebot 页面或 网站 已移动,因为 Googlebot 将继续抓取旧位置并将其编入索引。
303(见其他地点)
当请求者应向不同位置发出单独的 GET 请求以检索响应时,服务器会返回此代码。对于除 HEAD 请求之外的所有请求,服务器会自动转到其他位置。
304(未修改)
自上次请求以来,请求的页面尚未修改。当服务器返回此响应时,不会返回任何网页内容。
如果自请求者的最后一次请求以来页面没有更改,您应该配置您的服务器以返回此响应(称为 If-Modified-Since HTTP 标头)。节省带宽和开销,因为服务器可以告诉 Googlebot 该页面自上次抓取以来没有更改
.
305(使用代理)
请求者只能使用代理访问请求的网页。如果服务器返回此响应,则服务器还指示请求者应使用哪个代理。
307(临时重定向)
服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置来处理未来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码,并自动将请求者重定向到不同的位置。但是,您不应使用此代码通知 Googlebot 页面或 网站 已移动,因为 Googlebot 将继续抓取旧位置并将其编入索引。
4xx(请求错误)
这些状态码表明请求可能出错,阻止服务器处理请求。
代码说明
400(错误请求)
服务器不理解请求的语法。
401(未经授权)
该请求需要身份验证。登录后,服务器可能会向页面返回此响应。
403(禁止)
服务器拒绝了请求。如果当 Googlebot 尝试在您的 网站 上抓取有效页面时出现此状态代码(您可以在 Google 网站Admin Tools 的诊断下的 Web Crawl 页面上看到此状态代码),那么,有可能您的服务器或主机拒绝 Googlebot 访问它。
404(未找到)
服务器找不到请求的网页。例如,如果请求是针对服务器上不存在的页面,服务器通常会返回此代码。
但是,如果您有 robots.txt 文件并发现此状态,则您的 robots.txt 文件可能命名不正确或位于错误的位置。(该文件应位于顶级域中,并应命名为 robots.txt)。
如果您在 Googlebot 尝试抓取的网址(在诊断标签中的 HTTP 错误页面上)看到此状态,则表示 Googlebot 可能正在跟踪来自另一个页面的死链接(旧链接或输入错误的链接)链接到)。
405(方法禁用)
禁用请求中指定的方法。
406(不接受)
无法使用请求的内容属性响应请求的网页。
407(需要代理授权)
此状态码类似于 401(未授权),但指定请求者应使用代理进行授权。如果服务器返回此响应,则服务器还指示请求者应使用哪个代理。
408(请求超时)
服务器在等待请求时超时。
409(冲突)
服务器在完成请求时发生冲突。服务器必须收录有关在响应中发生的冲突的信息。服务器可能会返回此代码以响应与先前请求冲突的 PUT 请求,以及两个请求之间的差异列表。
410(已删除)
如果请求的资源已被永久删除,服务器将返回此响应。此代码类似于 404(未找到)代码,但在资源曾经存在但不再存在的情况下,有时会出现而不是 404 代码。如果资源已被永久删除,则应使用 301 代码指定资源的新位置。
411(需要有效长度)
服务器将不接受收录无效 Content-Length 标头字段的请求。
412(不满足前提条件)
服务器不满足请求者在请求中设置的前提条件之一。
413请求实体太大)
服务器无法处理请求,因为请求实体太大,服务器无法处理。
414(请求的 URI 太长)
请求的 URI(通常是 URL)太长,服务器无法处理。
415(不支持的媒体类型)
请求的页面不支持请求的格式。
416(请求的范围不符合要求)
如果针对页面的无效范围发出请求,服务器将返回此状态代码。
417(未达到预期值)
服务器不满足“预期”请求头字段的要求。
5xx(服务器错误)
这些状态代码表明服务器在尝试处理请求时遇到了内部错误。这些错误可能是服务器本身的错误,而不是请求。
代码说明
500内部服务器错误)
服务器遇到错误,无法完成请求。
501(尚未实施)
服务器没有能力满足请求。例如,当服务器无法识别请求方法时,服务器可能会返回此代码。
502错误的网关)
充当网关或代理的服务器从上游服务器接收到无效响应。
503服务不可用)
服务器当前不可用(由于过载或停机维护)。通常,这只是一个暂时的状态。
504网关超时)
服务器作为网关或代理,没有及时收到上游服务器的请求。