seo工具-百度快照诊断功能(昆明seo:robots文件可以告诉蜘蛛哪些页面是可以抓取的)

优采云 发布时间: 2022-02-01 18:01

  seo工具-百度快照诊断功能(昆明seo:robots文件可以告诉蜘蛛哪些页面是可以抓取的)

  昆明seo:robots文件可以告诉蜘蛛哪些页面可以爬,哪些页面不可以爬,在网站与搜索引擎的沟通中占据非常重要的位置。

  今天小小课堂为大家介绍百度官网的“机器人档案”教程。昆明seo希望对大家有所帮助。

  

  一、什么是机器人文件

  机器人是网站与蜘蛛沟通的重要渠道。该站点通过robots文件声明了网站中不想被搜索引擎收录搜索到的部分,或者指定搜索引擎仅收录特定部分。请注意,仅当您的 网站 收录您不想被搜索引擎收录 搜索的内容时,才需要 robots.txt 文件。如果您想要搜索引擎 收录网站 上的所有内容,请不要创建 robots.txt 文件。为防止设置robots文件时站长出现,百度站长平台特推出robots工具,帮助站长正确设置robots。

  二、robots.txt 文件格式

  robots 文件通常放置在根目录中,收录一个或多个由空行分隔的记录(以 CR、CR/NL 或 NL 结尾)。每条记录的格式如下:

  “:”

  #可用于该文件中的注释,具体用法与UNIX中的约定相同。该文件中的记录通常以一行或多行 User-agent 开头,后接几行 Disallow 和 Allow 行,具体如下:

  1、用户代理

  此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个机器人会受到“robots.txt”的限制。对于此文件,必须至少有一个 User-agent 记录。如果此项的值设置为 *,则对任何机器人都有效。在“robots.txt”文件中,“User-agent:*”只能有一条记录。如果在“robots.txt”文件中,添加“User-agent: SomeBot”和几行 Disallow 和 Allow 行,则名称“SomeBot”仅受“User-agent: SomeBot”后面的 Disallow 和 Allow 行限制。

  2、禁止

  该项的值用于描述一组不想被访问的URL。该值可以是完整路径,也可以是路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html,并且无法访问/help/index.html。 “Disallow:”表示允许机器人访问网站的所有URL,且“/robots.txt”文件中必须至少有一条Disallow记录。如果“/robots.txt”不存在或为空文件,则网站对所有搜索引擎机器人开放。

  3、允许

  该项的值用来描述一组你想被访问的URL。与 Disallow 项类似,该值可以是完整路径,也可以是路径前缀。以 Allow 项的值开头的 URL 是允许机器人访问。例如“允许:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。 网站 的所有 URL 默认情况下都是 Allow,因此 Allow 通常与 Disallow 结合使用,以允许访问某些网页,同时禁止访问所有其他 URL。

  4、使用“*”和“$”

  Baiduspider 支持使用通配符“*”和“$”来模糊匹配 url。

  "*" 匹配零个或多个任意字符

  "$" 匹配行终止符。

  最后要注意的是:百度会严格遵守robots的相关协议,请注意区分不想被爬取的目录或收录的大小写,百度会精准匹配爬取的带收录的目录,否则robots协议不会生效。

  三、robots.txt 文件使用示例

  

  四、网站Robots被误挡怎么办

  机器人文件是搜索生态中一个非常重要的环节,也是一个非常详细的环节。在网站的操作过程中,很多站长和同学很容易忽视robots文件的存在,误覆盖或者禁止所有robots,造成不必要的损失! (昆明seo提醒机器人不要乱玩。)

  如果机器人被误封了怎么办?今天请来厦门258网站运营经理郑俊伟,分享一下网站机器人被误封后怎么办?

  【案例背景】

  网站开发2.0版本,技术选择在线开发,为防止搜索引擎爬取开发版本,要求技术人员设置机器人封禁处理。 2.0版本的开发周期为1个月。 1个月后,网站版本迭代,直接覆盖1.0版本,包括Robots封禁文件。 2天后发现流量明显下降,查看1.@收录发现800万收录下降为0,关键词下降不少。

  

  

  【处理方式】

  1.将Robots禁令修改为允许,然后去百度站长后台检测并更新Robots。

  2.百度站长后台爬取检测显示爬取失败,没关系,点击爬取几次触发蜘蛛爬取网站。

  3.百度站长后台抓取频率,申请增加抓取频率。

  4.百度反馈中心,反馈是误操作造成的。

  5.百度站长后台链接提交,设置数据主动推送(实时)。

  6.更新站点地图网站地图,重新提交百度,每天手动提交一次。

  以上处理完成后,接下来就是等待了。好在2天的时间数据开始慢慢恢复,第三天基本恢复正常!

  

  【案例总结】

  这次事故绝对是我经营生涯中的一次失败。我想总结和反思一下。希望大家可以避免类似的问题。

  1.产品开发一定要避免在线开发,不能搭建开发环境省事。

  2.产品迭代必须有过程记录,并且这些设置在开发过程中已经处理过了。不需要放的和必须放的要说得很清楚。

  3.时刻关注百度站长后台,关注相关数据变化,及时从数据变化中发现问题。

  以上是小小课堂介绍的百度官方“机器人档案”的“机器人档案”教程。谢谢收看。 seo 培训网络寻*敏*感*词*教室!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线