1.网站为什么抓取一些不存在的页面?(图)

优采云 发布时间: 2021-08-20 05:19

  1.网站为什么抓取一些不存在的页面?(图)

  网站Grabbing 这个指标对于做seo很重要,不爬就没有收录,但是我们在做网站爬检测的时候经常会看到一些404的返回码,这些页面根本不存在在我们网站,那么,网站爬取,目录和页面不存在的原因,怎么办?

  

  基于对百度搜索引擎的研究,我们认为:

  1.网站 为什么有些页面不存在?

  网站被爬取,页面不存在的原因有很多,比如:

  ①页面删除

  在很多情况下,网站在优化过程中需要进行调整,您调整的页面可能不会被搜索引擎抓取。有时,你看到的页面没有被索引,但实际这些页面可能正在评估中,所以一段时间后,蜘蛛仍然会抓取这些页面。

  ②旧域名

  有时候我们做seo,为了更快的效果,会用老域名,但是老域名一定要有建站历史,不然我们不会选择,有历史就有历史大概率会有蜘蛛,而且蜘蛛​​有记忆,所以总是爬一些旧的网址,所以买旧域名有利有弊,但利大于弊。

  ③恶意扫描

  当然,有时候,我们的域名没有问题,没有页面被删除,仍然会有不存在的页面。这时候就需要观察这些爬取到的ip是否有一定的规律,有很多时候,我们网站就会面临各种扫描的需求,比如漏洞扫描,文章采集等爬取,如果这些 IP 是正规的,那么扫描漏洞的可能性就很大。

  2.如何处理抓取不存在的页面

  了解抓取不存在页面的一些原因,那么我们如何解决这些问题?

  ①机器人

  首先,我们知道这些不存在的页面被反复抓取。我们需要采取措施告诉蜘蛛,这些页面是不允许被抓取的。我们可以使用Robots协议来禁止这些页面的抓取,通常对于大多数蜘蛛来说,这种方法是有效的,因为这是所有常规搜索引擎都需要遵守的协议。

  ②提交死链接

  如果还存在被重复抓取的问题,可以查看这些页面是否有幸存的百度快照。如果有快照,蜘蛛会反复爬取,因为你在屏蔽没有被索引的页面,而这些页面已经被索引后,我们可以汇总这些页面的网址,并通过资源平台提交死链接。

  ③屏蔽ip

  当然,以上方法都是各大搜索引擎蜘蛛的策略。如果被非搜索引擎蜘蛛恶意扫描或抓取怎么办?

  我们认为最直接的方式就是屏蔽这些IP。可以通过修改服务器中的文件来实现这个功能:

  1)云主机

  下载.htaccess文件,直接修改,上传覆盖原文件。

  2)宝塔

  到宝塔后台找到安全选项,选择防火墙,在防火墙中选择屏蔽ip。

  3)plugin

  现在各大cms系统都推出了各种功能插件。我们可以直接搜索blocking ip来查找插件进行ipblocking。

  总结:网站grabbing,目录和页面不存在的原因,以及如何处理,我们在这里讨论,以上内容仅供参考。

  转载蝙蝠侠IT需要授权!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线