搜索引擎禁止的方式优化网站(禁止收录机制的时候站长并不希望某些页面被收录)
优采云 发布时间: 2021-09-06 07:11搜索引擎禁止的方式优化网站(禁止收录机制的时候站长并不希望某些页面被收录)
禁止收录机制
有时候站长不希望某些页面被爬取收录,比如付费内容、还在测试阶段的页面、抄袭内血等等。网站上没有链接,或者使用JavaScript、Flash链接、foll等方式不能保证页面不会收录。虽然站长自己没有链接到他不想成为收录的页面,但其他网站可能因为某种原因导入了链接,导致页面成为收录。请勿确保页面不是收录,您需要使用robots 文件或Meta robots 标签。
机器人文件
搜索引擎蜘蛛访问网站时,首先会检查网站根目录下是否有名为robots.txt的纯文本文件。 robots.txt 用于指示搜索引擎禁止抓取网站 某些内容或指定允许抓取某些内容。缺少 robots 文件或空文件意味着允许搜索引擎抓取所有内容。某些服务器设置有问题。当 robots 文件不存在时,会返回 200 状态码和一些错误信息,而不是 404 状态码。这可能会导致搜索引擎误解robots文件信息,所以建议即使允许抓取所有内容,也要创建一个空的robots txt文件,将其放在根目录下。
元机器人标签
meta robots标签是页面头部的一种meta标签,用于指示搜索引擎禁止索引该页面的内容。最简单的meta robots标签格式就是标签的意思是禁止所有搜索引擎索引这个页面,禁止跟踪这个页面上的链接。使用noindex元robots标签的页面会被抓取,但不会被索引,页面URL也不会出现在搜索结果中,这与robots文件不同。
nofollow 使用
nofollow 是 Google 于 2005 年创建的新标签(严格来说是属性),目前百度、雅虎、必应等主流搜索引擎均已支持。 nofollow 的初衷是为了减少垃圾链接对搜索引擎排名的影响。标签的含义是告诉搜索引擎这个链接不是站长自己编辑的。该标签不会跟踪抓取链接,也不会传递链接权重和锚文本。