php禁止网页抓取(robots如何禁止搜索引擎抓取php动态网址(图)参考)
优采云 发布时间: 2021-10-03 00:24php禁止网页抓取(robots如何禁止搜索引擎抓取php动态网址(图)参考)
本文文章将详细讲解禁止PHP机器人爬取的方法。小编觉得很实用,所以分享给大家作为参考。希望你看完这篇文章 收获。
robots如何禁止抓取PHP:1、在robots.txt文件中写入“Disallow: /*?*”;2、 在robots.txt 文件中添加规则“User-agent:* Allow: .html$ Disallow: /”。
Robots禁止搜索引擎抓取php动态网址
所谓动态网址是指网址包括什么?, & 等字符网址,如news.php?lang=cn&class=1&id=2。我们开启了网站的伪静态后,对于网站的SEO来说,有必要避免搜索引擎爬取我们的动态网址网站。
你为什么要这样做?因为搜索引擎会在两次获取同一个页面但最终确定同一个页面后触发网站。具体处罚不明确。总之,不利于网站的整体SEO。那么如何防止搜索引擎抓取我们的动态网址网站呢?
这个问题可以通过robots.txt文件解决,具体操作请看下面。
我们知道动态页面有一个共同的特点,就是会有一个“?” 链接中的问号符号,因此我们可以在robots.txt文件中写入以下规则:
User-agent: *
Disallow: /*?*
这将禁止搜索引擎抓取网站 的整个动态链接。另外,如果我们只想让搜索引擎抓取特定类型的文件,比如html格式的静态页面,我们可以在robots.txt中加入如下规则:
User-agent: *
Allow: .html$
Disallow: /
另外,记得把你写的robots.txt文件放在你的网站的根目录下,否则是不行的。此外,还有一个简单的快捷方式来编写规则。登录google网站管理员工具,在里面写规则,生成robots.txt文件即可。
关于《机器人如何禁止爬取php》这篇文章文章分享到这里,希望以上内容能对大家有所帮助,让大家学到更多的知识,如果你觉得文章是的,请分享出去让更多人看到。