抓取网页新闻(百度（Baidu）爬虫-Google：抓取网页的质量)

优采云发布时间: 2022-02-02 18:16

　　可以在主机的IIS日志中查看。1.谷歌爬虫名称1）Googlebot百度蜘蛛日志分析：从谷歌网站索引和新闻索引爬取页面2）Googlebot-Mobile爬取谷歌移动索引页面3）@ > Googlebot-Image：为 Google 的图像索引抓取页面4） Mediapartners-Google：抓取页面以确定 AdSense 内容。只有在您的网站上显示 AdSense 广告时，Google 才会使用此机器人来抓取您的网站。5） Adsbot-Google：抓取网络以衡量 AdWords 目标网页的质量。仅当您使用 Google AdWords 为您的网站做广告时，Google 才会使用此机器人。2.百度爬虫名称：Baiduspider3.雅虎爬虫名称：Yahoo Slurp4.游道蜘蛛名称：YodaoBot5.

　　蜘蛛IP地址为61.135.168.142。其中，200表示搜索引擎蜘蛛爬取成功后返回200，属于正常；请求已完成。201 确定；紧跟在 POST 命令之后。202 确定；接受处理，但处理尚未完成。203 确定；部分信息 - 返回的信息只是部分信息。204 确定；无响应 - 已收到请求，但没有要发回的信息。3xx 重定向 301 已移动 - 请求的数据具有新位置，并且更改是永久性的。302 Found - 请求的数据暂时具有不同的 URI。303 See Other - 可以在另一个 URI 下找到对请求的响应，并且应该使用 GET 方法检索。304 Not Modified - 文档未按预期修改。305 Using Proxy - 请求的资源必须通过 location 字段中提供的代理访问。306 Not Used - 不再使用；保留此代码以备将来使用。4xx 错误 400 客户端中的错误请求 - 请求中存在语法问题，或者无法满足请求。401 Unauthorized - 客户端无权访问数据。402 需要付款 - 表示计费系统处于活动状态。403 Forbidden - 即使授权也不需要访问。404 Not Found - 服务器找不到给定的资源；该文件不存在。407 代理验证请求 - 客户端必须首先通过代理验证自己。4xx 错误 400 客户端中的错误请求 - 请求中存在语法问题，或者无法满足请求。401 Unauthorized - 客户端无权访问数据。402 需要付款 - 表示计费系统处于活动状态。403 Forbidden - 即使授权也不需要访问。404 Not Found - 服务器找不到给定的资源；该文件不存在。407 代理验证请求 - 客户端必须首先通过代理验证自己。4xx 错误 400 客户端中的错误请求 - 请求中存在语法问题，或者无法满足请求。401 Unauthorized - 客户端无权访问数据。402 需要付款 - 表示计费系统处于活动状态。403 Forbidden - 即使授权也不需要访问。404 Not Found - 服务器找不到给定的资源；该文件不存在。407 代理验证请求 - 客户端必须首先通过代理验证自己。

　　410 请求的网页不存在（永久）；415 Unsupported media type - 服务器拒绝为请求提供服务，因为请求的实体的格式不受支持。5xx 错误 500 服务器内部错误 - 由于意外情况，服务器无法完成请求。501 Not Executed - 服务器不支持请求的工具。502 Bad Gateway - 服务器收到来自上游服务器的无效响应。503 Unavailable Service - 由于临时过载或维护，服务器无法处理请求。

　　大神帮我看看百度蜘蛛有没有来我的网站

　　在服务器后台查看网站访问日志的百度蜘蛛日志分析，如下：

　　GET /index.asp - 9999 - 180.76.15.145 Mozilla/5.0+(兼容;+Baiduspider/2.0;+ +/search/spider.html) 200 0 64 百度蜘蛛日志分析。

　　你的网站百度蜘蛛日志分析，有一个专门的日志文件，里面记录了谁让你走了网站，百度蜘蛛爬到了你的网站，也会记录在文件里，所以你可以找到你找到的日志文件并检查一下，很简单。如果你的网站是微软IIS，那么默认的日志文件存放路径是：C:\WINDOWS\system32\LogFiles

　　百度蜘蛛访问日志以HEAD开头，是什么意思？

　　一般情况下HEAD会在服务端生成和GET一样的处理（除非代码中处理了HEAD情况）百度蜘蛛日志分析，但是head信息不带body返回给客户端。

　　通过这个 HEAD 请求，百度蜘蛛可以快速判断网页的情况。通过header信息等），百度可以了解这个网页的大致状态，比如是否存在、是否重定向、是否可用等；通过Content-Length、Last-Modified中的任意一项和之前的访问记录进行比较，百度可以进一步判断这个网页是否需要更新。

　　说明百度重新检索网站成功了！不用担心这种情况！

0

2022-02-02

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(百度（Baidu）爬虫-Google：抓取网页的质量)

0 个评论

发起人