杭州SEO网站优化:如何屏蔽搜索引擎蜘蛛的最佳方法
优采云 发布时间: 2021-04-26 03:07杭州SEO网站优化:如何屏蔽搜索引擎蜘蛛的最佳方法
我们需要知道,在seo优化过程中,有时有必要阻止搜索引擎蜘蛛,即,禁止在网站中的某个地方爬网,那么我们应该如何阻止搜索引擎蜘蛛呢?以下是杭州SEO 网站优化公司的详细介绍。
百度蜘蛛抓取了我们的网站,希望我们的网页可以收录在其搜索引擎中。将来,当用户搜索时,它将为我们带来一定数量的搜索引擎优化流量。当然,我们不希望搜索引擎抓取所有内容。
因此,目前,我们只希望能够对搜索引擎搜索到的内容进行爬网。例如,用户的隐私和背景信息不希望捕获和收录搜索引擎。解决这些问题的最佳方法有两种,如下所示:
机器人协议文件阻止了百度蜘蛛的爬网
robots协议是位于网站根目录中的协议文件,可以通过URL(URL:http://///robots.txt)访问。当百度蜘蛛抓取我们的网站时,它将首先访问此文件。因为它告诉蜘蛛哪些可以捕获,哪些不能捕获。
robot协议文件的设置相对简单,可以通过User-Agent,Disallow和Allow这三个参数进行设置。
User-Agent:在不同搜索引擎上的声明;
不允许:不允许爬网的目录或页面;
允许:通常可以省略或不写入允许爬网的目录或页面,因为如果您不编写任何无法爬网的内容,则可以对其进行爬网。
让我们看下面的示例。这种情况是我不希望百度抓取我所有的网站 css文件,数据目录,seo-tag.html页面
用户代理:BaidusppiderDisallow:/ *。cssDisallow:/ data / Disallow:/seo/seo-tag.html
如上所述,用户代理声明了蜘蛛的名称,这意味着它针对的是百度蜘蛛。无法获得以下内容“ / *。css”,首先/指的是根目录,即您的域名。 *是表示任何内容的通配符。这意味着所有以.css结尾的文件都不能被抓取。这是您自己的两种体验。逻辑是相同的。
如果要检测上次设置的机械手文件,可以访问本文“用于检查机械手是否正确的工具简介”,并获取用于检测设置的详细工具。
403状态码用于限制内容输出并阻止爬虫爬行。
403状态码是http协议中网页的返回状态码。当搜索引擎遇到403状态代码时,它知道这些页面受权限限制。我无法访问它。例如,如果您需要登录以查看内容,则搜索引擎本身将无法登录。如果返回403,他还知道这是权限设置页面,并且无法读取内容。当然,它不会收录在内。
返回403状态代码时,应该有一个类似于404页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者都是必不可少的。您只有一个提示页面,状态码返回200。这是百度蜘蛛的大量重复页面。状态代码为403,但返回的内容不同。这也不是很友好。
最后,对于机器人协议,我想补充一点:“现在,搜索引擎将通过网页的布局和布局来识别网页的用户友好性。如果阻止了css文件和js文件,与布局无关,搜索引擎将不会知道您的网页布局是好是坏,因此,建议您不要阻止此内容的产生。
好的,今天的分享就在这里。希望对您有帮助。当然,以上两个设置对除百度蜘蛛外的所有蜘蛛均有效。安装时要小心。
请在重新打印时指定:»如何阻止蜘蛛爬行网站!