杭州SEO网站优化：如何屏蔽搜索引擎蜘蛛的最佳方法

优采云发布时间: 2021-04-26 03:07

　　我们需要知道，在seo优化过程中，有时有必要阻止搜索引擎蜘蛛，即，禁止在网站中的某个地方爬网，那么我们应该如何阻止搜索引擎蜘蛛呢？以下是杭州SEO 网站优化公司的详细介绍。

　　百度蜘蛛抓取了我们的网站，希望我们的网页可以收录在其搜索引擎中。将来，当用户搜索时，它将为我们带来一定数量的搜索引擎优化流量。当然，我们不希望搜索引擎抓取所有内容。

　　因此，目前，我们只希望能够对搜索引擎搜索到的内容进行爬网。例如，用户的隐私和背景信息不希望捕获和收录搜索引擎。解决这些问题的最佳方法有两种，如下所示：

　　机器人协议文件阻止了百度蜘蛛的爬网

　　robots协议是位于网站根目录中的协议文件，可以通过URL（URL：http：/////robots.txt）访问。当百度蜘蛛抓取我们的网站时，它将首先访问此文件。因为它告诉蜘蛛哪些可以捕获，哪些不能捕获。

　　robot协议文件的设置相对简单，可以通过User-Agent，Disallow和Allow这三个参数进行设置。

　　User-Agent：在不同搜索引擎上的声明；

　　不允许：不允许爬网的目录或页面；

　　允许：通常可以省略或不写入允许爬网的目录或页面，因为如果您不编写任何无法爬网的内容，则可以对其进行爬网。

　　让我们看下面的示例。这种情况是我不希望百度抓取我所有的网站 css文件，数据目录，seo-tag.html页面

　　用户代理：BaidusppiderDisallow：/ *。cssDisallow：/ data / Disallow：/seo/seo-tag.html

　　如上所述，用户代理声明了蜘蛛的名称，这意味着它针对的是百度蜘蛛。无法获得以下内容“ / *。css”，首先/指的是根目录，即您的域名。 *是表示任何内容的通配符。这意味着所有以.css结尾的文件都不能被抓取。这是您自己的两种体验。逻辑是相同的。

　　如果要检测上次设置的机械手文件，可以访问本文“用于检查机械手是否正确的工具简介”，并获取用于检测设置的详细工具。

　　403状态码用于限制内容输出并阻止爬虫爬行。

　　403状态码是http协议中网页的返回状态码。当搜索引擎遇到403状态代码时，它知道这些页面受权限限制。我无法访问它。例如，如果您需要登录以查看内容，则搜索引擎本身将无法登录。如果返回403，他还知道这是权限设置页面，并且无法读取内容。当然，它不会收录在内。

　　返回403状态代码时，应该有一个类似于404页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者都是必不可少的。您只有一个提示页面，状态码返回200。这是百度蜘蛛的大量重复页面。状态代码为403，但返回的内容不同。这也不是很友好。

　　最后，对于机器人协议，我想补充一点：“现在，搜索引擎将通过网页的布局和布局来识别网页的用户友好性。如果阻止了css文件和js文件，与布局无关，搜索引擎将不会知道您的网页布局是好是坏，因此，建议您不要阻止此内容的产生。

　　好的，今天的分享就在这里。希望对您有帮助。当然，以上两个设置对除百度蜘蛛外的所有蜘蛛均有效。安装时要小心。

　　请在重新打印时指定：»如何阻止蜘蛛爬行网站！

0

2021-04-26

杭州搜索引擎优化公司

0 个评论

要回复文章请先登录或注册