php网页抓取工具(网站建设中一项重要的工作就是改版,百度蜘蛛抓取情况)
优采云 发布时间: 2022-02-08 16:17php网页抓取工具(网站建设中一项重要的工作就是改版,百度蜘蛛抓取情况)
网站建设中的一项重要工作是修订版本。每次修订都必须朝着积极的方向进行。因为每个阶段的定位不同,我们要网站展示的企业形象也不同,一个好看的网站绝对可以提升我们公司在潜在客户心目中的地位。但是,大部分的修改都会对我们的网站 SEO产生一定的影响。这里我们需要非常熟悉网站的情况,然后对其进行有效的控制,以减少修改造成的404页数。很多情况。
最近,一个新的 网站 已经推出。因为是一年多的域名,所以之前的网站的内容和新站点的内容完全不同。网站的结构也做了很大的调整,所以带来了很多404错误爬取页面,我当时没有特别注意这个问题,然后持续更新了2周左右,我发现快照没有更新,一些简单的外部链接不起作用。这个问题引起了我的注意。. 以下是我的一些详细想法:
1、使用日志分析工具查找404错误爬取页面
测井分析工具可以使用最常用的光年测井分析工具。首先,使用FTP下载最近几天的网站LOG日志。当然,如果你想要更多的分析,你可以下载这么多的一段时间的LOG日志。可以,使用日志分析工具新建一个任务,分析百度蜘蛛在各个阶段的爬取情况。这里主要考虑百度爬取的情况,因为建立这个分析工作的前提是快照停滞,收录为1。
建议您将分析分为三个时间段:
A.分析最后一天的LOG日志,可以是今天,但最好是昨天,因为昨天的日志会更全,而且就算晚上来分析,也不会统计一个部分时间。
B、分析修改后的LOG日志,因为涉及到百度蜘蛛对网站修改的一些判断,比如我们可以分析百度蜘蛛什么时候开始判断网站已经修改了,或者当它放弃对旧站点 URL 等的抓取时。
C、修改前后爬取量对比,分析修改对百度蜘蛛的爬取量有多大影响。
至于日志分析工作之后的分析工作,是一键式的。有了具体的分析思路后,我们再对比分析,会发现很多我们平时没有注意到的问题,比如下面改版导致的404页面。还有很多页面有404错误,我没有意识到。例如,下面的 wp-login.php 页面就是一个典型的例子:
404错误爬取页面
2、使用百度站长工具中的死链接提交工具提交死链接
百度站长平台LEE团队表示:404状态码代表'NotFound'。当蜘蛛更新时,它会认为页面是无效的。此时,将从索引库中删除。短期内,蜘蛛会发现该url不再被抓取。当然,百度的说法只能作为参考,因为对网站日志的分析发现,百度蜘蛛仍然爬取这些错误页面2个多星期。当然,百度对404错误页面的引导操作还是很有针对性的。性。
百度站长平台404页浏览量
具体来说,死链接站点地图是在死链接提交工具中提交的。您可以根据自己的情况提交死链接。我这里提交后效果不大,因为大家都知道百度的效果展示周期一般比较长。.
3、使用robots.txt和nofollow标签引导蜘蛛爬行
404错误页面最大的缺点之一就是给蜘蛛带来了一些错误的爬取,浪费了蜘蛛的爬取资源。比如首先我们要达成这样一个共识:任何网站蜘蛛爬取的资源都是有限的,小的网站自然少得多,大的网站多得多。如果你想要更高的爬虫爬取率和更合理的爬取,那么一些错误的链接会导致404错误的数量应该尽可能的减少。
所以我对网站这些资源的浪费给予了适当的指导,让蜘蛛爬一些我想让他爬的页面,把机器人限制在/wuchenshi/、/gaoxiao/等类似的页面列爬取,对网站中不参与排名的部分链接实施nofollow,引导蜘蛛爬取重要页面。再来看看spider 6. No. 3的爬取情况。首先,目录爬取中没有网站中不存在的目录:
蜘蛛对目录的爬取
对于爬虫访问的404页面,只有一张图片的404错误爬取:
改进后的404错误爬取
我还没有看到快照更新和 收录 添加。当然,理论上,这个操作应该可以帮助 网站 更快地获得搜索引擎的认可。> 为每个人做一个补充。
本文由徐鱼网()SEO徐子鱼发布,欢迎大家转载,转载请注明出处,谢谢合作!