php禁止网页抓取(做SEO的站长们是否经常碰到这样的问题?(一))

优采云 发布时间: 2021-11-04 14:11

  php禁止网页抓取(做SEO的站长们是否经常碰到这样的问题?(一))

  SEO站长经常遇到这样的问题吗?网站设计公司***yi***做好排名或提供优质服务后,无连续接单或连续电话影响,有客户拒付。另一方面,为了保证网站文章的性能,不容易被搜索引擎检索到,还需要一个通用的方法:拦截百度等搜索引擎蜘蛛,谷歌。总结出两种具体方法如下:

  一、创建 robots.txt 文本。

  robots.txt 文本文件应同时收录两个域,“User-agent:”和“Disallow:”,每条指令各占一行。

  1.用户代理:

  指定允许爬取的蜘蛛。如果给定参数,则只能抓取指定的蜘蛛;如果值为通配符“*”,则表示允许所有蜘蛛爬行。喜欢:

  User-agent:Googlebot*,表示只允许谷歌蜘蛛抓取;

  User-agent: *,表示允许所有蜘蛛爬行。

  注意:User-agent 必须出现在行中(有意义的行,注释除外)以首先声明用户代理。

  2.禁止:

  指定不允许蜘蛛爬取的目录或文件,如:

  Disallow:/help.php,表示禁止抓取根目录下的help.php文件;

  Disallow:/admin/,表示禁止抓取根目录下admin子目录中的任何内容;

  Disallow:该值为空时,表示没有限制,蜘蛛可以抓取站点中的任何内容。

  Disallow:/,表示禁止蜘蛛爬取根目录下的所有内容。

  如果需要指定多个目录或文件,可以使用多个“Disallow: file or directory names”来指定,但每一项必须单独一行。

  二、机器人元标签。

  robots.txt放在网站,文件级网络蜘蛛授权;而robots Meta标签放置在网页中,用于一些网页需要单独设置的时候,两者的功能是一样的。

  Meta robots标签必须放在中间,格式:

  content中的值决定了允许爬取的类型,必须同时收录两个值:是否允许索引(index)和是否关注链接(follow,也可以理解为是否允许继续爬行)沿着网页中的超链接)。共有4个参数可选,形成4种组合:

  index,follow:允许抓取此页面并允许跟踪链接。

  index, nofollow:允许抓取此页面,但禁止跟踪链接。

  noindex,follow:禁止抓取本页,但允许跟踪链接。

  noindex、nofllow:禁止抓取本页,禁止关注本页链接。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线