给出一个能有效禁止百度等搜索引擎收录的解决方案方法

优采云 发布时间: 2021-08-02 23:22

  给出一个能有效禁止百度等搜索引擎收录的解决方案方法

  注:虽然构建网站的目的大部分是为了优化搜索引擎排名,实现网络营销,但在特殊情况下,还是会有“不要搜索引擎收录”的需求,对于比如因为某些原因做了一个和主站内容几乎一样的副站,但是因为内容高度相似,百度关键词ranking的一部分给了副站,影响了主站的排名。这时候就需要截断百度的收录。这里有一个可以有效禁止百度收录等搜索引擎的解决方案。

  

  一、Robots.txt 只能禁止爬取,不能收录

  很多人认为在robots.txt中禁止百度蜘蛛爬行就相当于禁止收录。这是一个严重的误解。

  

  二、通过Nginx判断user_agent禁止百度等搜索引擎访问,实现禁止收录

  既然不能直接禁止爬行,那就干脆禁止访问百度蜘蛛等搜索引擎。这个想法是确定user_agent。如果是百度蜘蛛、谷歌机器人等搜索引擎的user_agent,返回403或者404,所以百度等搜索引擎会认为网站打不开或者不存在,所以自然会不是收录。

  其实之前我也写过类似文章《Apache/Nginx/PHP 屏蔽垃圾邮件UA爬虫的方法》,大家可以参考

  这里Nginx的配置代码如下:

  if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")

{

return 403;

}

  使用curl模拟搜索引擎爬行,测试上述代码的有效性,并在多个项目实践中验证了该方法的可行性,实现对百度收录的彻底封禁!

  #模拟百度搜索引擎

curl --user-agent "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" http://**.**.com

#模拟谷歌

curl --user-agent "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" http://**.**.com

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线