php禁止网页抓取(那些搜索引擎照常爬取你网站！不遵循robots.txt文件规范)

优采云发布时间: 2022-02-07 04:22

　　从上周开始，我的博客上经常出现Bad Request (Invalid Hostname)错误，询问网站服务商才知道网站的并发太高，所以服务商限制< @网站访问。但是我每天去看网站的流量统计，并没有什么异常，怎么可能并发太高了？后来查看了网站的搜索引擎爬取网站的日志，发现每分钟都有大量的页面被搜索引擎爬取！难怪网站的并发太高了！！

　　但是大家都知道搜索引擎收录网站对我们来说是件好事。我们不能禁止所有搜索引擎爬取，所以可以设置一些爬取规则来限制它们。根据我的流量来源分析，每天有大量来自百度和谷歌的流量，而其他搜索引擎几乎没有导入流量。我可以屏蔽这些不带来流量的搜索引擎。我想到的第一个方法是在网站根目录下写一个 robots.txt 文件：

User-agent: Googlebot

Disallow: /wp-

Allow: /wp-content/uploads/

Disallow: /?

Disallow: /feed

Disallow: /*/*/feed

Disallow: /trackback

Disallow: /*/*/trackback

Disallow: /*.php$

Disallow: /*.css$

User-agent: Baiduspider

Disallow: /wp-

Allow: /wp-content/uploads/

Disallow: /?

Disallow: /feed

Disallow: /*/*/feed

Disallow: /trackback

Disallow: /*/*/trackback

Disallow: /*.php$

Disallow: /*.css$

User-agent: *

Disallow: /

　　常规搜索引擎通常遵循 robots.txt 文件规范。以上只允许百度和谷歌抓取博客。但是总有一些搜索引擎不遵循robots.txt文件规范，也就是说这个设置是没有用的。那些搜索引擎像往常一样在爬你网站！不遵循robots.txt协议的代表：iAskSpider SohuAgent wget、OutfoxBot。之前以为微软的Bing搜索引擎应该是遵循robots.txt协议的，但是设置了上面的robots.txt文件规范，发现日志里有很多bingbots！

2014-11-13 17:38:14 157.55.39.39 /archives/1112/comment-page-2