robots协议文件屏蔽百度蜘蛛抓取协议的设置比较简单

优采云发布时间: 2021-08-27 07:08

　　百度蜘蛛抓取我们的网站，希望我们的网页收录能被发送到它的搜索引擎。以后用户搜索的时候，可以给我们带来一定的SEO流量。当然，我们不希望搜索引擎抓取所有内容。

　　所以，这个时候我们只想抓取我们想在搜索引擎上搜索到的内容。像用户隐私、背景信息等，不希望搜索引擎被爬取和收录。有两种最好的方法可以解决这个问题，如下所示：

　　robots 协议文件阻止百度蜘蛛抓取

　　robots协议是放置在网站根目录下的协议文件，可以通过URL地址访问：您的域名/robots.txt。百度蜘蛛抓取我们网站时，会先访问这个文件。因为它告诉蜘蛛哪些可以爬，哪些不能爬。

　　robots协议文件的设置比较简单，可以通过User-Agent、Disallow、Allow三个参数进行设置。

　　让我们看下面的例子。场景是我不想百度抢到我所有的网站css文件、数据目录、seo-tag.html页面

　　User-Agent: Baidusppider

Disallow: /*.css

Disallow: /data/

Disallow: /seo/seo-tag.html

　　如上，user-agent声明的蜘蛛名称表示针对百度蜘蛛。以下无法抓取“/*.css”。首先，前面的/指的是根目录，也就是你的域名。 * 是通配符，代表任何内容。这意味着无法抓取所有以 .css 结尾的文件。亲自体验以下两个。逻辑是一样的。

　　如果你想检查你上次设置的robots文件是否正确，可以访问这个文章《检查Robots是否正确的工具介绍》，里面有详细的工具可以检查你的设置。

　　403 状态码用于限制内容输出并阻止蜘蛛抓取。

　　403状态码是http协议中网页返回的状态码。当搜索引擎遇到403状态码时，就知道该类页面是权限受限的。我不能访问。比如你需要登录查看内容，搜索引擎本身是不会登录的，那么当你返回403时，他也知道这是权限设置页面，无法读取内容。自然，收录不会。

　　在返回 403 状态代码时，应该有一个类似于 404 页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者缺一不可。你只有一个提示页面，状态码返回200，对于百度蜘蛛来说是很多重复的页面。有一个 403 状态代码，但返回不同的内容。也不是很友好。

　　最后，关于robot协议，我想补充一点：“现在搜索引擎会通过你网页的布局和布局来识别你网页的体验友好性。如果你屏蔽了css文件的抓取和布局相关的js文件，那么搜索引擎不知道你的网页布局是好是坏，所以不建议蜘蛛屏蔽这个内容。”

　　好了，今天的分享就到这里，希望对大家有帮助，当然以上两个设置对百度蜘蛛以外的所有蜘蛛都有效。设置时请谨慎。

0 个评论

要回复文章请先登录或注册