php禁止网页抓取(做SEO的站长们是否经常碰到这样的问题?(一))
优采云 发布时间: 2021-11-04 14:11php禁止网页抓取(做SEO的站长们是否经常碰到这样的问题?(一))
SEO站长经常遇到这样的问题吗?网站设计公司***yi***做好排名或提供优质服务后,无连续接单或连续电话影响,有客户拒付。另一方面,为了保证网站文章的性能,不容易被搜索引擎检索到,还需要一个通用的方法:拦截百度等搜索引擎蜘蛛,谷歌。总结出两种具体方法如下:
一、创建 robots.txt 文本。
robots.txt 文本文件应同时收录两个域,“User-agent:”和“Disallow:”,每条指令各占一行。
1.用户代理:
指定允许爬取的蜘蛛。如果给定参数,则只能抓取指定的蜘蛛;如果值为通配符“*”,则表示允许所有蜘蛛爬行。喜欢:
User-agent:Googlebot*,表示只允许谷歌蜘蛛抓取;
User-agent: *,表示允许所有蜘蛛爬行。
注意:User-agent 必须出现在行中(有意义的行,注释除外)以首先声明用户代理。
2.禁止:
指定不允许蜘蛛爬取的目录或文件,如:
Disallow:/help.php,表示禁止抓取根目录下的help.php文件;
Disallow:/admin/,表示禁止抓取根目录下admin子目录中的任何内容;
Disallow:该值为空时,表示没有限制,蜘蛛可以抓取站点中的任何内容。
Disallow:/,表示禁止蜘蛛爬取根目录下的所有内容。
如果需要指定多个目录或文件,可以使用多个“Disallow: file or directory names”来指定,但每一项必须单独一行。
二、机器人元标签。
robots.txt放在网站,文件级网络蜘蛛授权;而robots Meta标签放置在网页中,用于一些网页需要单独设置的时候,两者的功能是一样的。
Meta robots标签必须放在中间,格式:
content中的值决定了允许爬取的类型,必须同时收录两个值:是否允许索引(index)和是否关注链接(follow,也可以理解为是否允许继续爬行)沿着网页中的超链接)。共有4个参数可选,形成4种组合:
index,follow:允许抓取此页面并允许跟踪链接。
index, nofollow:允许抓取此页面,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex、nofllow:禁止抓取本页,禁止关注本页链接。