给出一个能有效禁止百度等搜索引擎收录的解决方案方法

优采云发布时间: 2021-08-02 23:22

　　注：虽然构建网站的目的大部分是为了优化搜索引擎排名，实现网络营销，但在特殊情况下，还是会有“不要搜索引擎收录”的需求，对于比如因为某些原因做了一个和主站内容几乎一样的副站，但是因为内容高度相似，百度关键词ranking的一部分给了副站，影响了主站的排名。这时候就需要截断百度的收录。这里有一个可以有效禁止百度收录等搜索引擎的解决方案。

　　一、Robots.txt 只能禁止爬取，不能收录

　　很多人认为在robots.txt中禁止百度蜘蛛爬行就相当于禁止收录。这是一个严重的误解。

　　二、通过Nginx判断user_agent禁止百度等搜索引擎访问，实现禁止收录

　　既然不能直接禁止爬行，那就干脆禁止访问百度蜘蛛等搜索引擎。这个想法是确定user_agent。如果是百度蜘蛛、谷歌机器人等搜索引擎的user_agent，返回403或者404，所以百度等搜索引擎会认为网站打不开或者不存在，所以自然会不是收录。

　　其实之前我也写过类似文章《Apache/Nginx/PHP 屏蔽垃圾邮件UA爬虫的方法》，大家可以参考

　　这里Nginx的配置代码如下：

{

return 403;

}

　　使用curl模拟搜索引擎爬行，测试上述代码的有效性，并在多个项目实践中验证了该方法的可行性，实现对百度收录的彻底封禁！

　　#模拟百度搜索引擎

curl --user-agent "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" http://**.**.com

#模拟谷歌

curl --user-agent "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" http://**.**.com

0

2021-08-02

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

给出一个能有效禁止百度等搜索引擎收录的解决方案方法

0 个评论

发起人

AI时代内容工厂

给出一个能有效禁止百度等搜索引擎收录的解决方案方法

0 个评论

发起人

相关问题