搜索引擎如何抓取网页(这段IIS(蜘蛛)的名称整理如下,大家可以对号入座)

优采云 发布时间: 2021-12-09 05:18

  搜索引擎如何抓取网页(这段IIS(蜘蛛)的名称整理如下,大家可以对号入座)

  这段IIS日志代码表明:此时2011-02-27 13:02:40,百度搜索引擎蜘蛛(ip地址为61.135.168.39 ,以下/search/spider.htm是关于Baiduspider+的相关问题)我访问了服务器ip 222.73.86.227网站,抓到首页/ index.html,日志记录保存在W3SVC321文件夹中。其中,有两点值得说明:一是各大搜索引擎的爬虫(蜘蛛)名称整理如下,大家可以查一下自己的位子:

  1. 谷歌爬虫名称

  1.1 Googlebot:从 Google 的 网站 索引和新闻索引中抓取网页

  1.2 Googlebot-Mobile 为 Google 的移动索引抓取网页

  1.3 Googlebot-Image:抓取网页以获取 Google 的图片索引

  1.4 Mediapartners-Google:抓取网络以确定 AdSense 的内容。仅当 AdSense 广告显示在您的 网站 上时,Google 才会使用此机器人抓取您的 网站。

  1.5 Adsbot-Google:抓取网页以衡量 AdWords 着陆页的质量。如果您使用 Google AdWords 为您的 网站 做广告,Google 只会使用此机器人。

  2. 百度(Baidu)爬虫名称:Baiduspider

  3. 雅虎爬虫名称:Yahoo Slurp

  4. 有道(Yodao)蜘蛛名:YodaoBot

  5. 搜狗蜘蛛名称:搜狗蜘蛛

  6. MSN 的蜘蛛名:Msnbot

  我们很少使用其他搜索引擎,因此我们无需为此烦恼。

  二是代码中的200代表搜索引擎蜘蛛爬取后返回的HTTP状态码,代表爬取成功,爬取成功。

  各号码代码的具体含义如下:

  2xx 成功

  200 正常;请求已完成。

  201正常;后跟 POST 命令。

  202正常;已接受处理,但处理尚未完成。

  203正常;部分信息——返回的信息只是部分信息。

  第204话 无响应 - 已收到请求,但没有要发回的信息。

  3xx 重定向

  301 Moved - 请求的数据有一个新的位置并且更改是永久性的。

  302 Found - 请求的数据暂时具有不同的 URI。

  303 See Others——对请求的响应可以在另一个URI下找到,应该使用GET方法来检索这个响应。

  304 未修改 - 文档未按预期修改。

  305 Use proxy——请求的资源必须通过location字段中提供的代理访问。

  306 Unused——不再使用;保留此代码以备将来使用。

  4xx 客户端错误

  400 Bad request——请求存在语法问题,或者请求无法完成。

  401 Unauthorized——客户端无权访问数据。

  402 Payment required——表明计费系统有效。

  403 Forbidden-即使授权也不需要访问。

  404 Not Found——服务器找不到给定的资源;该文件不存在。

  407 Proxy authentication request - 客户端必须首先使用代理来验证自己。

  410 请求的页面不存在(永久);

  415 Unsupported media type - 服务器拒绝为请求提供服务,因为请求实体的格式不受支持。

  5xx 服务器出错

  500 内部错误 - 由于意外情况,服务器无法完成请求。

  501 未实现 - 服务器不支持请求的工具。

  502 Bad Gateway - 服务器收到来自上游服务器的无效响应。

  503 无法获得服务——由于临时过载或维护,服务器无法处理请求。

  鸿邦的网站说了这么多,可能很多SEO新手朋友还是找不到网站在哪里看日志。这需要在 IIS 服务器上进行配置。列出步骤。想想聪明的你。快速学习: 第一步:打开IIS服务器。选择要设置的 网站 属性。选择“启用日志记录”,勾选它,然后选择“W3C 扩展日志文件格式”。

  第二步:点击“W3C扩展日志文件格式”后面的“属性”按钮,在常规选项中选择新建日志日程为“每日”,当然也可以选择其他,选择保存日志的目录文件。(注意:日志文件最好和你要设置的网站放在同一目录下,以免与其他网站日志混淆)

  第三步:选择高级选项。检查底部的用户代理(cs(User-Agent))和其他选项。我通常检查底部的三个选项。这样就可以看到百度等爬虫的名字了。

  第四步:选择“主目录”选项卡,勾选“记录访问”复选框。然后您的 IIS 日志将开始正常记录。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线