搜索指定网站内容(怎样使页面不被收录是个值得思考的问题?)
优采云 发布时间: 2021-09-09 22:16搜索指定网站内容(怎样使页面不被收录是个值得思考的问题?)
如何防止页面被收录是一个值得思考的问题。没意识到严重性的童鞋们可以想想网站上有多少抄袭内容、低质量内容、各种非搜索价值,但用户却觉得内容方便
图 8173-1:
一般来说,试图让搜索引擎抓取和索引更多内容是SEO经常头疼的问题。没有收录和索引,就没有办法谈论排名。尤其对于已经达到一定规模的网站,做网站Full收录是一个比较麻烦的SEO技巧。当页面达到数十万时,例如,无论网站架构如何设计或优化,100%收录都是不可能的,只能尝试提高收录率。
但是有时候怎么屏蔽搜索引擎收录也会成为问题,而且最近越来越成为问题。需要防止收录的情况,如机密信息、复制内容、广告链接等。过去常用的拦截收录的方法有密码保护、把内容放在表单后面、使用JS/Ajax、使用Flash、等
使用闪光灯
谷歌几年前就开始尝试抓取 Flash 内容,简单的文本内容已经可以抓取了。也可以跟踪 Flash 中的链接。
表格
Google 蜘蛛还可以填写表单并抓取 POST 请求页面。这已经可以在日志中看到了。
JS/Ajax
使用JS链接一直被认为是一种非搜索引擎友好的方式,所以可以防止蜘蛛爬行,但是两三年前我看到JS链接不能阻止谷歌蜘蛛爬行,不仅仅是URL出现在JS中会Climbing,执行简单的JS就可以找到更多的网址。
前几天,有人发现网站使用的facebook评论插件中有很多评论被爬取,收录。插件本身是一个ajax。这是个好消息。我的一个实验性电商网站product评论功能就是因为这个。使用facebook评论插件的好处是很大的。具体的好处将在后面讨论。唯一的问题是注释是AJAX实现的,不能被捕获。拿,产品评论是收录的目的之一(生成原创内容)。想了半天也没有解决办法,于是傻傻的装上了Facebook评论插件,开启了购物车本身的评论功能。那么现在Facebook评论中的评论可以是收录,所以不需要两套评论功能。
机器人文件
目前,robots 文件禁止确保内容不是收录 的唯一方法。但也有一个缺点。它会减肥。虽然内容不能再收录,但是页面变成了只接受链接权重,不流出权重的无底洞。
不关注
Nofollow 不保证不会是收录。即使你网站给页面的所有链接添加NF,也不能保证其他人网站不会链接到这个页面,搜索引擎仍然可以找到这个页面。
meta Noindex + 关注
(11月3日新增)读者no1se提醒,为了防止收录传权重,页面上可以使用meta noindex和meta follow,这样页面就不是收录了,但重量可以流出。的确,这也是一种更好的方法。还有一个问题,还是会浪费蜘蛛爬行的时间。哪位读者有办法防止收录,既不减肥,又不浪费爬行时间,请留言,对SEO社区大有裨益。
如何防止页面被收录是一个值得思考的问题。没意识到严重性的童鞋们可以想想网站上有多少抄袭内容、低质量内容、各种非搜索价值(不过用户觉得方便有用,所以拿不走) 对 URL 进行排序和过滤。