php抓取网页标签(基于网站安全与盈利的因素,搜索引擎JavaScript属性屏蔽收录)

优采云 发布时间: 2021-11-03 23:20

  php抓取网页标签(基于网站安全与盈利的因素,搜索引擎JavaScript属性屏蔽收录)

  基于网站安全性和盈利性因素,站长不希望某些目录或页面被抓取和收录,例如付费内容、测试阶段的页面和复制的内容页面。

  

  虽然在网站的构建过程中,使用JavaScript、Flash链接和Nofollow属性可以阻止搜索引擎蜘蛛,导致页面不是收录;但在某些情况下,搜索引擎可以读取它们。根据网站的排名,我们建议谨慎使用JavaScript、Flash链接和Nofollow属性来屏蔽收录。

  我想强调的是,使用JavaScript和Flash链接搭建网站,其实是在给网站制造蜘蛛陷阱,让搜索引擎无法正确判断和抓取页面的主题和文字。

  为了确保网站某些目录或页面不是收录,您需要正确使用robots文件或Meta Robots标签来实现网站禁止收录机制。

  1、机器人文件

  搜索引擎蜘蛛访问网站时,首先会检查网站的根目录下是否有名为robots.txt的纯文本文件。它的主要功能是让搜索引擎抓取或禁止它。 网站 一些内容。

  user-agent: *适用于所有蜘蛛

  禁止:/上传/

  Disallow: .jpg$ 禁止抓取所有 .jpg 文件

  Disallow: *.html 禁止抓取所有 html 文件

  禁止:/upload/index.html

  Disallow 禁止抓取哪些文件或目录。 Allow 告诉搜索引擎应该抓取哪些页面。由于没有指定,所以允许爬取,所以单独写allow是没有意义的。

  2、元机器人标签

  Meta robots标签是页面头部的一种元标签,用于指示搜索引擎禁止索引该页面的内容。

  最简单的元机器人标签格式是:

  效果是禁止所有搜索引擎索引此页面,并禁止跟踪此页面上的链接。

  效果是禁止对该页面进行索引,但允许蜘蛛跟踪页面上的链接,也可以传递权重。

  Google、Bing 和 Yahoo 支持的标签如下:

  Noindex:不索引此页面

  Nofollow:不要点击此页面上的链接

  Nosnippet:不在搜索结果中显示摘要文本

  Noarchive:不显示快照

  Noodp:不要使用打开目录中的标题和描述

  百度支持:Nofollow 和 Noarchive

  元机器人的使用只有在索引被禁止时才有意义。

  使用 noindex meat robots 标签的页面会被抓取,但不会被索引,页面 URL 也不会出现在搜索结果中,这与 robots 文件不同。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线