网站内容抓取(网站日志里百度蜘蛛Baiduspider(+))(图))

优采云 发布时间: 2022-02-02 11:20

  网站内容抓取(网站日志里百度蜘蛛Baiduspider(+))(图))

  百度用来抓取网页的程序叫做Baiduspider-Baidu Spider。我们主要分析网站被百度爬取的情况。网站日志中百度蜘蛛Baiduspider的活动:爬取频率,返回HTTP状态码。

  如何查看日志:

  通过FTP,在网站的根目录下找到一个日志文件,文件名一般收录log,里面的记事本下载解压,这是网站的日志,里面记录了访问和操作网站 操作条件。

  由于每台服务器和主机的情况不同,不同主机的日志功能记录的内容是不同的,有的甚至没有日志功能。

  日志内容如下:

  61.135.168.22--[11/Jan/2009:04:02:45+0800]"GET/bbs/thread-7303-1-1.htmlHTTP/1.1"2008450"-""百度蜘蛛+(+)"

  分析:

  代表GET /bbs/thread-7303-1-1.html,抓取/bbs/thread-7303-1-1.html这个页面。

  200 表示爬取成功。

  8450 表示抓取了 8450 个字节。

  如果你的日志格式不是这样的,蘑菇栽培技术意味着日志格式设置不同。

  在很多日志中可以看到20000和200064代表正常爬取。

  爬取频率是通过查看每日日志中的百度蜘蛛爬取次数得出的。爬取频率没有标准化的时间表或频率数,我们一般通过多天的日志对比来判断。当然,我们希望百度蜘蛛每天爬的次数越多越好。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线