seo协议文件屏蔽百度蜘蛛的操作方法介绍优化方法
优采云 发布时间: 2021-07-31 23:02seo协议文件屏蔽百度蜘蛛的操作方法介绍优化方法
注意在seo优化的过程中,有时候需要屏蔽搜索引擎蜘蛛,也就是禁止爬取网站的某个地方,那么我们应该如何屏蔽搜索引擎蜘蛛呢?下面我们来看看具体的操作方法。
百度蜘蛛爬取了我们的网站,希望我们的网页能被它的搜索引擎收录。未来用户搜索时,会给我们带来一定的搜索引擎优化流量。当然,我们不希望搜索引擎抓取所有内容。
所以,这个时候,我们只想能够抓取搜索引擎搜索到的内容。例如,用户的隐私和背景信息不希望搜索引擎被捕获和收录。解决这些问题的最佳方法有两种,如下所示:
robots 协议文件阻止百度蜘蛛抓取
robots 协议是放置在网站根目录下的协议文件,可以通过URL(URL: )访问。当百度蜘蛛抓取我们的网站时,它会先访问这个文件。因为它告诉蜘蛛哪些可以抓,哪些不能。
robots协议文件的设置比较简单,可以通过User-Agent、Disallow、Allow三个参数进行设置。
·User-Agent:对不同搜索引擎的声明;
·Disallow:不允许爬取的目录或页面;
·Allow:允许爬取的目录或页面通常可以省略或不写,因为如果不写任何不能爬取的内容,它就可以被爬取。
让我们看下面的例子。场景是我不想百度抢到我所有的网站css文件、数据目录、seo-tag.html页面
用户代理:BaidusppiderDisallow: /*.cssDisallow: /data/Disallow: /seo/seo-tag.html
如上所述,user-agent 声明了蜘蛛的名称,这意味着它针对的是百度蜘蛛。以下内容无法获取“/*.css”。首先,/指的是根目录,也就是你的域名。 * 是代表任何内容的通配符。这意味着无法抓取所有以 .css 结尾的文件。这是你自己的两次经历。逻辑是一样的。
403 状态码用于限制内容输出并阻止蜘蛛抓取。
403状态码是http协议中网页的返回状态码。当搜索引擎遇到 403 状态码时,它知道这些页面受到权限限制。我无法访问它。比如你需要登录查看内容,搜索引擎本身就无法登录。如果你返回403,他也知道这是权限设置页面,无法读取内容。当然,它不会被包括在内。
返回403状态码时,应该有类似404页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者缺一不可。你只有一个提示页面,状态码返回200,这是百度蜘蛛的大量重复页面。有403个状态码,但返回的内容不同。也不是很友好。
最后,对于robot协议,我想补充一点:“现在,搜索引擎会通过网页的布局和布局来识别网页的用户友好性。如果阻止css文件和js文件与布局相关,那么搜索引擎就不会知道你的网页布局是好是坏。因此,不建议防止这些内容被爬虫。