搜索引擎如何抓取网页(这段IIS（蜘蛛）的名称整理如下，大家可以对号入座)

优采云发布时间: 2021-12-09 05:18

　　这段IIS日志代码表明：此时2011-02-27 13:02:40，百度搜索引擎蜘蛛（ip地址为61.135.168.39 ,以下/search/spider.htm是关于Baiduspider+的相关问题）我访问了服务器ip 222.73.86.227网站，抓到首页/ index.html，日志记录保存在W3SVC321文件夹中。其中，有两点值得说明：一是各大搜索引擎的爬虫（蜘蛛）名称整理如下，大家可以查一下自己的位子：

　　1. 谷歌爬虫名称

　　1.1 Googlebot：从 Google 的网站索引和新闻索引中抓取网页

　　1.2 Googlebot-Mobile 为 Google 的移动索引抓取网页

　　1.3 Googlebot-Image：抓取网页以获取 Google 的图片索引

　　1.4 Mediapartners-Google：抓取网络以确定 AdSense 的内容。仅当 AdSense 广告显示在您的网站上时，Google 才会使用此机器人抓取您的网站。

　　1.5 Adsbot-Google：抓取网页以衡量 AdWords 着陆页的质量。如果您使用 Google AdWords 为您的网站做广告，Google 只会使用此机器人。

　　2. 百度（Baidu）爬虫名称：Baiduspider

　　3. 雅虎爬虫名称：Yahoo Slurp

　　4. 有道（Yodao）蜘蛛名：YodaoBot

　　5. 搜狗蜘蛛名称：搜狗蜘蛛

　　6. MSN 的蜘蛛名：Msnbot

　　我们很少使用其他搜索引擎，因此我们无需为此烦恼。

　　二是代码中的200代表搜索引擎蜘蛛爬取后返回的HTTP状态码，代表爬取成功，爬取成功。

　　各号码代码的具体含义如下：

　　2xx 成功

　　200 正常；请求已完成。

　　201正常；后跟 POST 命令。

　　202正常；已接受处理，但处理尚未完成。

　　203正常；部分信息——返回的信息只是部分信息。

　　第204话无响应 - 已收到请求，但没有要发回的信息。

　　3xx 重定向

　　301 Moved - 请求的数据有一个新的位置并且更改是永久性的。

　　302 Found - 请求的数据暂时具有不同的 URI。

　　303 See Others——对请求的响应可以在另一个URI下找到，应该使用GET方法来检索这个响应。

　　304 未修改 - 文档未按预期修改。

　　305 Use proxy——请求的资源必须通过location字段中提供的代理访问。

　　306 Unused——不再使用；保留此代码以备将来使用。

　　4xx 客户端错误

　　400 Bad request——请求存在语法问题，或者请求无法完成。

　　401 Unauthorized——客户端无权访问数据。

　　402 Payment required——表明计费系统有效。

　　403 Forbidden-即使授权也不需要访问。

　　404 Not Found——服务器找不到给定的资源；该文件不存在。

　　407 Proxy authentication request - 客户端必须首先使用代理来验证自己。

　　410 请求的页面不存在（永久）；

　　415 Unsupported media type - 服务器拒绝为请求提供服务，因为请求实体的格式不受支持。

　　5xx 服务器出错

　　500 内部错误 - 由于意外情况，服务器无法完成请求。

　　501 未实现 - 服务器不支持请求的工具。

　　502 Bad Gateway - 服务器收到来自上游服务器的无效响应。

　　503 无法获得服务——由于临时过载或维护，服务器无法处理请求。

　　鸿邦的网站说了这么多，可能很多SEO新手朋友还是找不到网站在哪里看日志。这需要在 IIS 服务器上进行配置。列出步骤。想想聪明的你。快速学习：第一步：打开IIS服务器。选择要设置的网站属性。选择“启用日志记录”，勾选它，然后选择“W3C 扩展日志文件格式”。

　　第二步：点击“W3C扩展日志文件格式”后面的“属性”按钮，在常规选项中选择新建日志日程为“每日”，当然也可以选择其他，选择保存日志的目录文件。（注意：日志文件最好和你要设置的网站放在同一目录下，以免与其他网站日志混淆）

　　第三步：选择高级选项。检查底部的用户代理（cs（User-Agent））和其他选项。我通常检查底部的三个选项。这样就可以看到百度等爬虫的名字了。

　　第四步：选择“主目录”选项卡，勾选“记录访问”复选框。然后您的 IIS 日志将开始正常记录。

0

2021-12-09

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(这段IIS（蜘蛛）的名称整理如下，大家可以对号入座)

0 个评论

发起人