搜索引擎如何抓取网页(这段IIS(蜘蛛)的名称整理如下,大家可以对号入座)
优采云 发布时间: 2021-12-09 05:18搜索引擎如何抓取网页(这段IIS(蜘蛛)的名称整理如下,大家可以对号入座)
这段IIS日志代码表明:此时2011-02-27 13:02:40,百度搜索引擎蜘蛛(ip地址为61.135.168.39 ,以下/search/spider.htm是关于Baiduspider+的相关问题)我访问了服务器ip 222.73.86.227网站,抓到首页/ index.html,日志记录保存在W3SVC321文件夹中。其中,有两点值得说明:一是各大搜索引擎的爬虫(蜘蛛)名称整理如下,大家可以查一下自己的位子:
1. 谷歌爬虫名称
1.1 Googlebot:从 Google 的 网站 索引和新闻索引中抓取网页
1.2 Googlebot-Mobile 为 Google 的移动索引抓取网页
1.3 Googlebot-Image:抓取网页以获取 Google 的图片索引
1.4 Mediapartners-Google:抓取网络以确定 AdSense 的内容。仅当 AdSense 广告显示在您的 网站 上时,Google 才会使用此机器人抓取您的 网站。
1.5 Adsbot-Google:抓取网页以衡量 AdWords 着陆页的质量。如果您使用 Google AdWords 为您的 网站 做广告,Google 只会使用此机器人。
2. 百度(Baidu)爬虫名称:Baiduspider
3. 雅虎爬虫名称:Yahoo Slurp
4. 有道(Yodao)蜘蛛名:YodaoBot
5. 搜狗蜘蛛名称:搜狗蜘蛛
6. MSN 的蜘蛛名:Msnbot
我们很少使用其他搜索引擎,因此我们无需为此烦恼。
二是代码中的200代表搜索引擎蜘蛛爬取后返回的HTTP状态码,代表爬取成功,爬取成功。
各号码代码的具体含义如下:
2xx 成功
200 正常;请求已完成。
201正常;后跟 POST 命令。
202正常;已接受处理,但处理尚未完成。
203正常;部分信息——返回的信息只是部分信息。
第204话 无响应 - 已收到请求,但没有要发回的信息。
3xx 重定向
301 Moved - 请求的数据有一个新的位置并且更改是永久性的。
302 Found - 请求的数据暂时具有不同的 URI。
303 See Others——对请求的响应可以在另一个URI下找到,应该使用GET方法来检索这个响应。
304 未修改 - 文档未按预期修改。
305 Use proxy——请求的资源必须通过location字段中提供的代理访问。
306 Unused——不再使用;保留此代码以备将来使用。
4xx 客户端错误
400 Bad request——请求存在语法问题,或者请求无法完成。
401 Unauthorized——客户端无权访问数据。
402 Payment required——表明计费系统有效。
403 Forbidden-即使授权也不需要访问。
404 Not Found——服务器找不到给定的资源;该文件不存在。
407 Proxy authentication request - 客户端必须首先使用代理来验证自己。
410 请求的页面不存在(永久);
415 Unsupported media type - 服务器拒绝为请求提供服务,因为请求实体的格式不受支持。
5xx 服务器出错
500 内部错误 - 由于意外情况,服务器无法完成请求。
501 未实现 - 服务器不支持请求的工具。
502 Bad Gateway - 服务器收到来自上游服务器的无效响应。
503 无法获得服务——由于临时过载或维护,服务器无法处理请求。
鸿邦的网站说了这么多,可能很多SEO新手朋友还是找不到网站在哪里看日志。这需要在 IIS 服务器上进行配置。列出步骤。想想聪明的你。快速学习: 第一步:打开IIS服务器。选择要设置的 网站 属性。选择“启用日志记录”,勾选它,然后选择“W3C 扩展日志文件格式”。
第二步:点击“W3C扩展日志文件格式”后面的“属性”按钮,在常规选项中选择新建日志日程为“每日”,当然也可以选择其他,选择保存日志的目录文件。(注意:日志文件最好和你要设置的网站放在同一目录下,以免与其他网站日志混淆)
第三步:选择高级选项。检查底部的用户代理(cs(User-Agent))和其他选项。我通常检查底部的三个选项。这样就可以看到百度等爬虫的名字了。
第四步:选择“主目录”选项卡,勾选“记录访问”复选框。然后您的 IIS 日志将开始正常记录。