网站内容抓取(网站日志里百度蜘蛛Baiduspider的活跃性：抓取频率，返回的HTTP状态码)

优采云发布时间: 2022-01-11 07:22

　　百度用来抓取网页的程序叫做Baiduspider——百度蜘蛛。我们主要分析网站被百度爬取的情况。网站百度蜘蛛Baiduspider在日志中的活动：爬取频率，返回HTTP状态码。

　　如何查看日志：

　　通过FTP，在网站的根目录下找到一个日志文件，文件名一般收录log，里面的记事本下载解压，这是网站的日志，里面记录了访问和操作网站操作条件。

　　由于每台服务器和主机的情况不同，不同主机的日志功能记录的内容也不同，有的甚至不具备日志功能。

　　日志内容如下：

　　61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET/bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-""百度蜘蛛+(+)"

　　分析：

　　代表GET /bbs/thread-7303-1-1.html，抓取/bbs/thread-7303-1-1.html这个页面。

　　200 表示成功获取。

　　8450 表示抓取了 8450 个字节。

　　如果你的日志中的格式不是这样的，说明日志格式设置不一样。

　　在很多日志中可以看到，200 0 0 和 200 0 64 代表正常爬取。

　　爬取频率是通过查看每日日志中的百度蜘蛛爬取次数得出的。爬取频率没有标准化的时间表或频率数，我们一般通过多天的日志对比来判断。当然，我们希望百度蜘蛛每天爬的次数越多越好。

0

2022-01-11

网站内容抓取

0 个评论

要回复文章请先登录或注册