php禁止网页抓取(做SEO的站长们是否经常碰到这样的问题？(一))

优采云发布时间: 2021-11-04 14:11

　　SEO站长经常遇到这样的问题吗？网站设计公司***yi***做好排名或提供优质服务后，无连续接单或连续电话影响，有客户拒付。另一方面，为了保证网站文章的性能，不容易被搜索引擎检索到，还需要一个通用的方法：拦截百度等搜索引擎蜘蛛，谷歌。总结出两种具体方法如下：

　　一、创建 robots.txt 文本。

　　robots.txt 文本文件应同时收录两个域，“User-agent:”和“Disallow:”，每条指令各占一行。

　　1.用户代理：

　　指定允许爬取的蜘蛛。如果给定参数，则只能抓取指定的蜘蛛；如果值为通配符“*”，则表示允许所有蜘蛛爬行。喜欢：

　　User-agent：Googlebot*，表示只允许谷歌蜘蛛抓取；

　　User-agent: *，表示允许所有蜘蛛爬行。

　　注意：User-agent 必须出现在行中（有意义的行，注释除外）以首先声明用户代理。

　　2.禁止：

　　指定不允许蜘蛛爬取的目录或文件，如：

　　Disallow：/help.php，表示禁止抓取根目录下的help.php文件；

　　Disallow：/admin/，表示禁止抓取根目录下admin子目录中的任何内容；

　　Disallow：该值为空时，表示没有限制，蜘蛛可以抓取站点中的任何内容。

　　Disallow:/，表示禁止蜘蛛爬取根目录下的所有内容。

　　如果需要指定多个目录或文件，可以使用多个“Disallow: file or directory names”来指定，但每一项必须单独一行。

　　二、机器人元标签。

　　robots.txt放在网站，文件级网络蜘蛛授权；而robots Meta标签放置在网页中，用于一些网页需要单独设置的时候，两者的功能是一样的。

　　Meta robots标签必须放在中间，格式：

　　content中的值决定了允许爬取的类型，必须同时收录两个值：是否允许索引（index）和是否关注链接（follow，也可以理解为是否允许继续爬行）沿着网页中的超链接）。共有4个参数可选，形成4种组合：

　　index,follow：允许抓取此页面并允许跟踪链接。

　　index, nofollow：允许抓取此页面，但禁止跟踪链接。

　　noindex,follow：禁止抓取本页，但允许跟踪链接。

　　noindex、nofllow：禁止抓取本页，禁止关注本页链接。

0

2021-11-04

php禁止网页抓取

0 个评论

要回复文章请先登录或注册