网站内容抓取(如何查看网站被百度抓取的情况?查看日志的方式)
优采云 发布时间: 2021-12-05 04:05网站内容抓取(如何查看网站被百度抓取的情况?查看日志的方式)
百度用来抓取网页的程序叫做Baiduspider-Baidu spider,我们主要通过查看网站被百度抓取的状态来分析,网站的日志中百度蜘蛛Baiduspider的活动情况:抓取频率,返回HTTP状态码。
如何查看网站被百度抓取的状态?
查看日志的方法:
通过FTP,在网站的根目录下找到一个日志文件。文件名通常收录日志。下载并解压里面的记事本。这是网站的日志,记录了访问和Operational的情况。
由于每个服务器和主机的情况不同,不同主机的日志功能记录的内容也不同,有的甚至没有日志功能。
图片来自网络
日志内容如下:
61.135.168.22--[11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+/search/spider.htm)"
分析:
GET /bbs/thread-7303-1-1.html代表,抓取页面/bbs/thread-7303-1-1.html。
200 代表成功获取。
8450 表示捕获了 8450 个字节。
如果你的日志格式不一样,说明日志格式设置不一样。
在很多日志中,可以看到20000 0和20000 64都代表正常爬行。
爬取频率是通过查看每日日志中百度蜘蛛的爬取次数获得的。爬行频率没有标准的时间表或频率编号。我们一般通过比较多天的日志来判断。当然,我们希望百度蜘蛛每天尽可能多地抓取。
如果网站出现问题,请查看网站日志,检查网站的HTTP返回值是否正常。
以上为《网站被百度抓取,如何查看?》全部内容,感谢阅读,希望对您有所帮助!