百度seo分析工具(前段时间写了篇robots.txt文件的规则还是有一定的误区)

优采云 发布时间: 2021-09-13 06:07

  百度seo分析工具(前段时间写了篇robots.txt文件的规则还是有一定的误区)

  前段时间写了一篇关于如何编写robots.txt文件的文章,但是通过实际观察,有些朋友对robots.txt文件的规则还是有一定的误解。

  比如很多人是这样写的:

  用户代理:*

  允许:/

  禁止:/mlu/

  不知道大家有没有注意到这个规则其实是行不通的。第一句Allow:/表示允许蜘蛛抓取所有内容,第二句Disallow:/mlu/表示禁止/mlu/下面的所有内容。

  从表面上看,这条规则的目的是让蜘蛛抓取除/mlu/之外的所有网站页面。

  但是搜索引擎蜘蛛从上到下执行规则,这会导致第二条命令失败。

  正确的规则应该是:

  用户代理:*

  禁止:/mlu/

  允许:/

  即先执行禁止命令,再执行权限命令,这样才不会失效。

  另外,对于百度蜘蛛,还有一个容易出错的地方,就是Disallow命令和Allow命令要以斜线/开头,所以有人写:Disallow:*.html这对于百度蜘蛛来说是错误的,它应该写成:Disallow: /*.html.

  有时我们在编写这些规则时,可能会出现一些我们没有注意到的问题。现在我们可以使用百度广州SEO的站长工具(zhanzhang.baidu)和谷歌广州SEO的站长工具进行测试。

  相对来说,百度广州SEO的robots工具比较简陋:

  百度机器人工具只能检测每行命令是否符合语法规则,不能检测实际效果和爬取逻辑规则。

  相对来说,谷歌的Robots工具要好用很多,如图:

  谷歌广州SEO站长工具中的名称是爬虫的权限,它报告了谷歌爬取网站页面时被拦截的网址数。

  您也可以在线测试Robots修改的效果。当然,这里的修改只是为了测试。如果没有问题,可以生成robots.txt文件,或者将命令代码复制到robots.txt文本文件中,上传到网站Root目录。

  谷歌的测试与百度有很大不同。它允许您输入某个网址或某些网址,以测试 Google 蜘蛛是否会抓取这些网址。

  测试结果是这些网址被谷歌蜘蛛抓取。此测试适用于某些特定 URL 的 Robots 文件规则。

  当然,两个工具结合使用效果更好。现在你应该完全理解机器人应该怎么写了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线