网站内容抓取(网站日志里百度蜘蛛Baiduspider的活跃性：抓取频率，返回的HTTP状态码)

优采云发布时间: 2021-10-24 06:02

　　百度用来抓取网页的程序叫做Baiduspider-百度蜘蛛。我们检查网站被百度抓取的状态主要是为了分析。网站的日志中百度蜘蛛Baiduspider的活动：抓取频率，返回HTTP状态码。

　　查看日志的方法：

　　通过FTP，在网站的根目录下找到一个日志文件。文件名通常收录日志。下载并解压里面的记事本。这是网站的日志，记录了访问和Operational的情况。

　　由于每个服务器和主机的情况不同，不同主机的日志功能记录的内容也不同，有的甚至没有日志功能。

　　日志内容如下：

　　61.135.168.22--[11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "百度蜘蛛+(+)"

　　分析：

　　GET /bbs/thread-7303-1-1.html代表，抓取页面/bbs/thread-7303-1-1.html。

　　200 表示成功获取。

　　8450 表示捕获了 8450 个字节。

　　如果你的日志格式不一样，说明日志格式设置不一样。

　　在很多日志中，可以看到20000 0和20000 64都代表正常爬行。

　　爬取频率是通过查看每日日志中百度蜘蛛的爬取次数获得的。爬行频率没有标准的时间表或频率编号。我们一般通过比较多天的日志来判断。当然，我们希望百度蜘蛛每天尽可能多地抓取。返回搜狐查看更多

0

2021-10-24

网站内容抓取

0 个评论

要回复文章请先登录或注册