seo协议文件屏蔽百度蜘蛛的操作方法介绍优化方法

优采云发布时间: 2021-07-31 23:02

　　注意在seo优化的过程中，有时候需要屏蔽搜索引擎蜘蛛，也就是禁止爬取网站的某个地方，那么我们应该如何屏蔽搜索引擎蜘蛛呢？下面我们来看看具体的操作方法。

　　百度蜘蛛爬取了我们的网站，希望我们的网页能被它的搜索引擎收录。未来用户搜索时，会给我们带来一定的搜索引擎优化流量。当然，我们不希望搜索引擎抓取所有内容。

　　所以，这个时候，我们只想能够抓取搜索引擎搜索到的内容。例如，用户的隐私和背景信息不希望搜索引擎被捕获和收录。解决这些问题的最佳方法有两种，如下所示：

　　robots 协议文件阻止百度蜘蛛抓取

　　robots 协议是放置在网站根目录下的协议文件，可以通过URL（URL: ）访问。当百度蜘蛛抓取我们的网站时，它会先访问这个文件。因为它告诉蜘蛛哪些可以抓，哪些不能。

　　robots协议文件的设置比较简单，可以通过User-Agent、Disallow、Allow三个参数进行设置。

　　·User-Agent：对不同搜索引擎的声明；

　　·Disallow：不允许爬取的目录或页面；

　　·Allow：允许爬取的目录或页面通常可以省略或不写，因为如果不写任何不能爬取的内容，它就可以被爬取。

　　让我们看下面的例子。场景是我不想百度抢到我所有的网站css文件、数据目录、seo-tag.html页面

　　用户代理：BaidusppiderDisallow: /*.cssDisallow: /data/Disallow: /seo/seo-tag.html

　　如上所述，user-agent 声明了蜘蛛的名称，这意味着它针对的是百度蜘蛛。以下内容无法获取“/*.css”。首先，/指的是根目录，也就是你的域名。 * 是代表任何内容的通配符。这意味着无法抓取所有以 .css 结尾的文件。这是你自己的两次经历。逻辑是一样的。

　　403 状态码用于限制内容输出并阻止蜘蛛抓取。

　　403状态码是http协议中网页的返回状态码。当搜索引擎遇到 403 状态码时，它知道这些页面受到权限限制。我无法访问它。比如你需要登录查看内容，搜索引擎本身就无法登录。如果你返回403，他也知道这是权限设置页面，无法读取内容。当然，它不会被包括在内。

　　返回403状态码时，应该有类似404页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者缺一不可。你只有一个提示页面，状态码返回200，这是百度蜘蛛的大量重复页面。有403个状态码，但返回的内容不同。也不是很友好。

　　最后，对于robot协议，我想补充一点：“现在，搜索引擎会通过网页的布局和布局来识别网页的用户友好性。如果阻止css文件和js文件与布局相关，那么搜索引擎就不会知道你的网页布局是好是坏。因此，不建议防止这些内容被爬虫。

0

2021-07-31

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册