php抓取网页标签(基于网站安全与盈利的因素,搜索引擎JavaScript属性屏蔽收录)
优采云 发布时间: 2021-11-03 23:20php抓取网页标签(基于网站安全与盈利的因素,搜索引擎JavaScript属性屏蔽收录)
基于网站安全性和盈利性因素,站长不希望某些目录或页面被抓取和收录,例如付费内容、测试阶段的页面和复制的内容页面。
虽然在网站的构建过程中,使用JavaScript、Flash链接和Nofollow属性可以阻止搜索引擎蜘蛛,导致页面不是收录;但在某些情况下,搜索引擎可以读取它们。根据网站的排名,我们建议谨慎使用JavaScript、Flash链接和Nofollow属性来屏蔽收录。
我想强调的是,使用JavaScript和Flash链接搭建网站,其实是在给网站制造蜘蛛陷阱,让搜索引擎无法正确判断和抓取页面的主题和文字。
为了确保网站某些目录或页面不是收录,您需要正确使用robots文件或Meta Robots标签来实现网站禁止收录机制。
1、机器人文件
搜索引擎蜘蛛访问网站时,首先会检查网站的根目录下是否有名为robots.txt的纯文本文件。它的主要功能是让搜索引擎抓取或禁止它。 网站 一些内容。
user-agent: *适用于所有蜘蛛
禁止:/上传/
Disallow: .jpg$ 禁止抓取所有 .jpg 文件
Disallow: *.html 禁止抓取所有 html 文件
禁止:/upload/index.html
Disallow 禁止抓取哪些文件或目录。 Allow 告诉搜索引擎应该抓取哪些页面。由于没有指定,所以允许爬取,所以单独写allow是没有意义的。
2、元机器人标签
Meta robots标签是页面头部的一种元标签,用于指示搜索引擎禁止索引该页面的内容。
最简单的元机器人标签格式是:
效果是禁止所有搜索引擎索引此页面,并禁止跟踪此页面上的链接。
效果是禁止对该页面进行索引,但允许蜘蛛跟踪页面上的链接,也可以传递权重。
Google、Bing 和 Yahoo 支持的标签如下:
Noindex:不索引此页面
Nofollow:不要点击此页面上的链接
Nosnippet:不在搜索结果中显示摘要文本
Noarchive:不显示快照
Noodp:不要使用打开目录中的标题和描述
百度支持:Nofollow 和 Noarchive
元机器人的使用只有在索引被禁止时才有意义。
使用 noindex meat robots 标签的页面会被抓取,但不会被索引,页面 URL 也不会出现在搜索结果中,这与 robots 文件不同。