百度seo分析工具(前段时间写了篇robots.txt文件的规则还是有一定的误区)

优采云发布时间: 2021-09-13 06:07

　　前段时间写了一篇关于如何编写robots.txt文件的文章，但是通过实际观察，有些朋友对robots.txt文件的规则还是有一定的误解。

　　比如很多人是这样写的：

　　用户代理：*

　　允许：/

　　禁止：/mlu/

　　不知道大家有没有注意到这个规则其实是行不通的。第一句Allow:/表示允许蜘蛛抓取所有内容，第二句Disallow:/mlu/表示禁止/mlu/下面的所有内容。

　　从表面上看，这条规则的目的是让蜘蛛抓取除/mlu/之外的所有网站页面。

　　但是搜索引擎蜘蛛从上到下执行规则，这会导致第二条命令失败。

　　正确的规则应该是：

　　用户代理：*

　　禁止：/mlu/

　　允许：/

　　即先执行禁止命令，再执行权限命令，这样才不会失效。

　　另外，对于百度蜘蛛，还有一个容易出错的地方，就是Disallow命令和Allow命令要以斜线/开头，所以有人写：Disallow:*.html这对于百度蜘蛛来说是错误的，它应该写成：Disallow: /*.html.

　　有时我们在编写这些规则时，可能会出现一些我们没有注意到的问题。现在我们可以使用百度广州SEO的站长工具（zhanzhang.baidu）和谷歌广州SEO的站长工具进行测试。

　　相对来说，百度广州SEO的robots工具比较简陋：

　　百度机器人工具只能检测每行命令是否符合语法规则，不能检测实际效果和爬取逻辑规则。

　　相对来说，谷歌的Robots工具要好用很多，如图：

　　谷歌广州SEO站长工具中的名称是爬虫的权限，它报告了谷歌爬取网站页面时被拦截的网址数。

　　您也可以在线测试Robots修改的效果。当然，这里的修改只是为了测试。如果没有问题，可以生成robots.txt文件，或者将命令代码复制到robots.txt文本文件中，上传到网站Root目录。

　　谷歌的测试与百度有很大不同。它允许您输入某个网址或某些网址，以测试 Google 蜘蛛是否会抓取这些网址。

　　测试结果是这些网址被谷歌蜘蛛抓取。此测试适用于某些特定 URL 的 Robots 文件规则。

　　当然，两个工具结合使用效果更好。现在你应该完全理解机器人应该怎么写了。

0

2021-09-13

百度seo分析工具

0 个评论

要回复文章请先登录或注册