浏览器抓取网页(网站日志在哪?如何查看网站被百度抓取的情况?)
优采云 发布时间: 2021-10-07 03:12浏览器抓取网页(网站日志在哪?如何查看网站被百度抓取的情况?)
你的网站/网页是否被百度抓取以及抓取频率会影响你的排名。
01如何查看网站被抓包的状态?
首先我们要知道百度用来抓取网页的工具是Baiduspider(百度蜘蛛),它的动作会被记录在网站的日志中,我们可以从日志中读取到Baiduspider 网站(百度蜘蛛)活动:抓取的频率和抓取后返回的HTTP状态码,用于查看网站被百度抓取的状态。所以下一步就是找到网站日志的内容。
02网站日志在哪里?如何查看
通常网站 日志文件位于管理后端的 logofiles 文件夹下。登录“FTP”账号,找到一个文件扩展名为.log的日志文件,下载并解压,将文件更改为记事本。这是网站日志,记录了网站是否被百度蜘蛛(Baidu Spider)爬取,爬取是否成功。
接下来,作者介绍了如何用这样一段代码进行日志分析。示例:时间 GET /images/index5_22.gif-- IP 地址 HTTP/1.1 浏览器和操作系统/news/detail/181.html 200 360 where, "GET / images /index5_22.gif" 表示:从服务器获取页面"/images/index5_22.gif"或文件;HTTP/1.1 浏览器及操作系统/news/detail/181.html 200 360,代表:抓取后返回的状态(成功与否,抓取次数) 200,状态码,表示爬取成功;360,volume,代表爬取多少字节,360字节;
常见状态码
200:表示服务器成功接受了客户端请求。这是最好的,这意味着网站页面是正常的。
301:表示用户访问的某个页面经过了301重定向(永久)处理。
302:这是一个临时重定向。如果网站日志分析发现302太多,需要确认301是否误认为302,如果是,赶紧修改。搜索引擎不喜欢 302 重定向。
404:表示访问的页面不存在了,或者访问的URL是错误的。
500:服务器错误。03 百度蜘蛛的活跃度:抓取频率是多少?
百度蜘蛛(Baidu spider)活动:抓取频率
在每日日志中记录Baiduspider(百度蜘蛛)爬取网站的次数,然后比较多天的日志,确定Baiduspider(百度蜘蛛)当前的活跃度。活跃度越高,爬取越多,说明网站的优化是有效的,网站的排名自然会上升。