百度网页关键字抓取(如下:robots协议文件屏蔽百度蜘蛛抓取协议(组图))
优采云 发布时间: 2021-10-29 00:01百度网页关键字抓取(如下:robots协议文件屏蔽百度蜘蛛抓取协议(组图))
百度蜘蛛爬取我们的网站,希望把我们的网页收录发送到自己的搜索引擎,以后用户搜索的时候,能给我们带来一定的SEO流量。当然,我们不希望搜索引擎抓取所有内容。
所以,这个时候,我们只希望我们想爬取在搜索引擎上搜索到的内容。像用户隐私、背景信息等,不希望搜索引擎被爬取和收录。解决此类问题的最佳方法有以下两种:
Robots协议文件阻止百度蜘蛛爬行
robots协议是放置在网站根目录下的协议文件,可以通过URL地址访问:您的域名/robots.txt。当百度蜘蛛抓取我们网站时,它会先访问这个文件。因为它告诉蜘蛛哪些可以爬,哪些不能爬。
robots协议文件的设置比较简单,可以通过User-Agent、Disallow、Allow三个参数进行设置。
让我们看一个例子。场景是我不想百度抓取我所有的网站 css文件、数据目录、seo-tag.html页面
User-Agent: Baidusppider Disallow: /*.css Disallow: /data/ Disallow: /seo/seo-tag.html
如上,user-agent声明的蜘蛛名称表示针对百度蜘蛛。以下无法抓取“/*.css”。首先,前面的/指的是根目录,也就是你的域名。* 是通配符,代表任何内容。这意味着无法抓取所有以 .css 结尾的文件。亲自体验以下两个。逻辑是一样的。
如果你想检查你上次设置的robots文件是否正确,可以访问这个文章《检查robots是否正确的工具介绍》,里面有详细的工具可以检查你的设置。
通过403状态码,限制内容输出,阻止蜘蛛爬行。
403状态码是http协议中网页返回的状态码。当搜索引擎遇到 403 状态码时,它就知道该类型的页面是有权限限制的。我不能访问。比如你需要登录查看内容,搜索引擎本身是不会登录的,那么当你返回403时,他也知道这是权限设置页面,无法读取内容。自然不会是收录。
当返回 403 状态码时,应该有一个类似于 404 页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者缺一不可。你只有一个提示页面,状态码返回200,对于百度蜘蛛来说是很多重复的页面。有一个 403 状态代码,但返回不同的内容。它也不是很友好。
最后,对于机器人协议,我想补充一点:“现在搜索引擎会通过你的网页布局和布局来识别你的网页的体验友好性。如果抓取css文件和布局相关js文件被屏蔽了,那么搜索引擎我不知道你的网页布局是好是坏,所以不建议从蜘蛛那里屏蔽这个内容。”
好了,今天的分享就到这里,希望能对大家有所帮助,当然以上两个设置对除百度蜘蛛以外的所有蜘蛛都有效。设置时请谨慎。