几种常用的屏蔽蜘蛛写法的方法,你知道吗?

优采云 发布时间: 2021-08-01 03:04

  几种常用的屏蔽蜘蛛写法的方法,你知道吗?

  一般情况下,网站建立并运营后,总是希望收录搜索引擎的数量越多越好。但这通常是大多数人想要的。有时候,我们还是希望搜索引擎蜘蛛不要访问网站的某些文件夹,当然也有不希望搜索引擎收录的页面。

  比如网站刚刚成立,还没有真正投入运营,没有实质性内容的时候; 收录页面太多导致网站权重分散,你只是想把权重聚集到一些最重要的页面上;再比如建立镜像网站,在操作网站时主要使用其他推广方式(这里指的是SEO以外的推广方式)......

  搜索引擎收录网站页面需要通过蜘蛛访问网站,抓取页面内容。所以一般情况下,想要屏蔽搜索引擎的收录需要限制和屏蔽蜘蛛的访问和爬取。下面笔者介绍几种常用的拦截蜘蛛爬行的方法。

  1.robots.txt 规则文件。

  大家都知道robots.txt是引导搜索引擎蜘蛛访问网站的规则,通常使用的比较多。一般建议是在根目录下创建robots.txt文件,不管网站是否需要屏蔽收录的内容。

  robots.txt 文件的规则很简单。例如,如果你需要阻止某个搜索引擎的蜘蛛访问所有目录,只需写:

  用户代理:Googlebot

  禁止:/

  例如禁止所有蜘蛛访问和爬取某个目录:

  用户代理:*

  禁止:/admin/

  2.robots 元标记。

  如果robots.txt是放置在网站中的规则文件,那么robots Meta就是放置在某个网页中的标签。两者的实际功能大致相同,只是robots.txt大部分搜索引擎都支持,而后者大部分搜索引擎不支持。另外,相比之下,单独设置某些页面时使用robots Meta。

  robots Meta 标签必须存储在“”代码中:

  “index”是指索引,“follow”是指跟踪链接并传递相应的权重。当然,相应的还有“noindex”和“nofollow”,功能正好相反。

  3.Server 配置文件。

  此方法是最不常用的拦截蜘蛛的方法。主要用于拦截“不遵守”robots.txt规则的蜘蛛。

  方法是分析一段时间的网站日志,找到需要屏蔽的蜘蛛及其ip。然后通过服务器的配置文件进行拦截,从而阻止某蜘蛛抓取网站。当然,这种方法使用起来并不灵活,例如无法单独拦截蜘蛛对某个文件夹(或网页)的抓取。

  由于服务器及其系统的不同,具体请参考相关设置方法。

  除了上面提到的三种阻止蜘蛛爬行的方法,应该还有其他的方法可以达到阻止蜘蛛爬行的目的。欢迎各位专家在闲暇时间补充。

  但是就以上三种方式来说,第一个robots.txt规则文件使用的比较广泛。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线