百度seo分析工具(前段时间写了篇robots.txt文件的规则还是有一定的误区)
优采云 发布时间: 2021-09-13 06:07百度seo分析工具(前段时间写了篇robots.txt文件的规则还是有一定的误区)
前段时间写了一篇关于如何编写robots.txt文件的文章,但是通过实际观察,有些朋友对robots.txt文件的规则还是有一定的误解。
比如很多人是这样写的:
用户代理:*
允许:/
禁止:/mlu/
不知道大家有没有注意到这个规则其实是行不通的。第一句Allow:/表示允许蜘蛛抓取所有内容,第二句Disallow:/mlu/表示禁止/mlu/下面的所有内容。
从表面上看,这条规则的目的是让蜘蛛抓取除/mlu/之外的所有网站页面。
但是搜索引擎蜘蛛从上到下执行规则,这会导致第二条命令失败。
正确的规则应该是:
用户代理:*
禁止:/mlu/
允许:/
即先执行禁止命令,再执行权限命令,这样才不会失效。
另外,对于百度蜘蛛,还有一个容易出错的地方,就是Disallow命令和Allow命令要以斜线/开头,所以有人写:Disallow:*.html这对于百度蜘蛛来说是错误的,它应该写成:Disallow: /*.html.
有时我们在编写这些规则时,可能会出现一些我们没有注意到的问题。现在我们可以使用百度广州SEO的站长工具(zhanzhang.baidu)和谷歌广州SEO的站长工具进行测试。
相对来说,百度广州SEO的robots工具比较简陋:
百度机器人工具只能检测每行命令是否符合语法规则,不能检测实际效果和爬取逻辑规则。
相对来说,谷歌的Robots工具要好用很多,如图:
谷歌广州SEO站长工具中的名称是爬虫的权限,它报告了谷歌爬取网站页面时被拦截的网址数。
您也可以在线测试Robots修改的效果。当然,这里的修改只是为了测试。如果没有问题,可以生成robots.txt文件,或者将命令代码复制到robots.txt文本文件中,上传到网站Root目录。
谷歌的测试与百度有很大不同。它允许您输入某个网址或某些网址,以测试 Google 蜘蛛是否会抓取这些网址。
测试结果是这些网址被谷歌蜘蛛抓取。此测试适用于某些特定 URL 的 Robots 文件规则。
当然,两个工具结合使用效果更好。现在你应该完全理解机器人应该怎么写了。