几种常用的屏蔽蜘蛛写法的方法，你知道吗？

优采云发布时间: 2021-08-01 03:04

　　一般情况下，网站建立并运营后，总是希望收录搜索引擎的数量越多越好。但这通常是大多数人想要的。有时候，我们还是希望搜索引擎蜘蛛不要访问网站的某些文件夹，当然也有不希望搜索引擎收录的页面。

　　比如网站刚刚成立，还没有真正投入运营，没有实质性内容的时候；收录页面太多导致网站权重分散，你只是想把权重聚集到一些最重要的页面上；再比如建立镜像网站，在操作网站时主要使用其他推广方式（这里指的是SEO以外的推广方式）......

　　搜索引擎收录网站页面需要通过蜘蛛访问网站，抓取页面内容。所以一般情况下，想要屏蔽搜索引擎的收录需要限制和屏蔽蜘蛛的访问和爬取。下面笔者介绍几种常用的拦截蜘蛛爬行的方法。

　　1.robots.txt 规则文件。

　　大家都知道robots.txt是引导搜索引擎蜘蛛访问网站的规则，通常使用的比较多。一般建议是在根目录下创建robots.txt文件，不管网站是否需要屏蔽收录的内容。

　　robots.txt 文件的规则很简单。例如，如果你需要阻止某个搜索引擎的蜘蛛访问所有目录，只需写：

　　用户代理：Googlebot

　　禁止：/

　　例如禁止所有蜘蛛访问和爬取某个目录：

　　用户代理：*

　　禁止：/admin/

　　2.robots 元标记。

　　如果robots.txt是放置在网站中的规则文件，那么robots Meta就是放置在某个网页中的标签。两者的实际功能大致相同，只是robots.txt大部分搜索引擎都支持，而后者大部分搜索引擎不支持。另外，相比之下，单独设置某些页面时使用robots Meta。

　　robots Meta 标签必须存储在“”代码中：

　　“index”是指索引，“follow”是指跟踪链接并传递相应的权重。当然，相应的还有“noindex”和“nofollow”，功能正好相反。

　　3.Server 配置文件。

　　此方法是最不常用的拦截蜘蛛的方法。主要用于拦截“不遵守”robots.txt规则的蜘蛛。

　　方法是分析一段时间的网站日志，找到需要屏蔽的蜘蛛及其ip。然后通过服务器的配置文件进行拦截，从而阻止某蜘蛛抓取网站。当然，这种方法使用起来并不灵活，例如无法单独拦截蜘蛛对某个文件夹（或网页）的抓取。

　　由于服务器及其系统的不同，具体请参考相关设置方法。

　　除了上面提到的三种阻止蜘蛛爬行的方法，应该还有其他的方法可以达到阻止蜘蛛爬行的目的。欢迎各位专家在闲暇时间补充。

　　但是就以上三种方式来说，第一个robots.txt规则文件使用的比较广泛。

0

2021-08-01

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册