seo工具-百度快照诊断功能(昆明seo:robots文件可以告诉蜘蛛哪些页面是可以抓取的)
优采云 发布时间: 2022-02-01 18:01seo工具-百度快照诊断功能(昆明seo:robots文件可以告诉蜘蛛哪些页面是可以抓取的)
昆明seo:robots文件可以告诉蜘蛛哪些页面可以爬,哪些页面不可以爬,在网站与搜索引擎的沟通中占据非常重要的位置。
今天小小课堂为大家介绍百度官网的“机器人档案”教程。昆明seo希望对大家有所帮助。
一、什么是机器人文件
机器人是网站与蜘蛛沟通的重要渠道。该站点通过robots文件声明了网站中不想被搜索引擎收录搜索到的部分,或者指定搜索引擎仅收录特定部分。请注意,仅当您的 网站 收录您不想被搜索引擎收录 搜索的内容时,才需要 robots.txt 文件。如果您想要搜索引擎 收录网站 上的所有内容,请不要创建 robots.txt 文件。为防止设置robots文件时站长出现,百度站长平台特推出robots工具,帮助站长正确设置robots。
二、robots.txt 文件格式
robots 文件通常放置在根目录中,收录一个或多个由空行分隔的记录(以 CR、CR/NL 或 NL 结尾)。每条记录的格式如下:
“:”
#可用于该文件中的注释,具体用法与UNIX中的约定相同。该文件中的记录通常以一行或多行 User-agent 开头,后接几行 Disallow 和 Allow 行,具体如下:
1、用户代理
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个机器人会受到“robots.txt”的限制。对于此文件,必须至少有一个 User-agent 记录。如果此项的值设置为 *,则对任何机器人都有效。在“robots.txt”文件中,“User-agent:*”只能有一条记录。如果在“robots.txt”文件中,添加“User-agent: SomeBot”和几行 Disallow 和 Allow 行,则名称“SomeBot”仅受“User-agent: SomeBot”后面的 Disallow 和 Allow 行限制。
2、禁止
该项的值用于描述一组不想被访问的URL。该值可以是完整路径,也可以是路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html,并且无法访问/help/index.html。 “Disallow:”表示允许机器人访问网站的所有URL,且“/robots.txt”文件中必须至少有一条Disallow记录。如果“/robots.txt”不存在或为空文件,则网站对所有搜索引擎机器人开放。
3、允许
该项的值用来描述一组你想被访问的URL。与 Disallow 项类似,该值可以是完整路径,也可以是路径前缀。以 Allow 项的值开头的 URL 是允许机器人访问。例如“允许:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。 网站 的所有 URL 默认情况下都是 Allow,因此 Allow 通常与 Disallow 结合使用,以允许访问某些网页,同时禁止访问所有其他 URL。
4、使用“*”和“$”
Baiduspider 支持使用通配符“*”和“$”来模糊匹配 url。
"*" 匹配零个或多个任意字符
"$" 匹配行终止符。
最后要注意的是:百度会严格遵守robots的相关协议,请注意区分不想被爬取的目录或收录的大小写,百度会精准匹配爬取的带收录的目录,否则robots协议不会生效。
三、robots.txt 文件使用示例
四、网站Robots被误挡怎么办
机器人文件是搜索生态中一个非常重要的环节,也是一个非常详细的环节。在网站的操作过程中,很多站长和同学很容易忽视robots文件的存在,误覆盖或者禁止所有robots,造成不必要的损失! (昆明seo提醒机器人不要乱玩。)
如果机器人被误封了怎么办?今天请来厦门258网站运营经理郑俊伟,分享一下网站机器人被误封后怎么办?
【案例背景】
网站开发2.0版本,技术选择在线开发,为防止搜索引擎爬取开发版本,要求技术人员设置机器人封禁处理。 2.0版本的开发周期为1个月。 1个月后,网站版本迭代,直接覆盖1.0版本,包括Robots封禁文件。 2天后发现流量明显下降,查看1.@收录发现800万收录下降为0,关键词下降不少。
【处理方式】
1.将Robots禁令修改为允许,然后去百度站长后台检测并更新Robots。
2.百度站长后台爬取检测显示爬取失败,没关系,点击爬取几次触发蜘蛛爬取网站。
3.百度站长后台抓取频率,申请增加抓取频率。
4.百度反馈中心,反馈是误操作造成的。
5.百度站长后台链接提交,设置数据主动推送(实时)。
6.更新站点地图网站地图,重新提交百度,每天手动提交一次。
以上处理完成后,接下来就是等待了。好在2天的时间数据开始慢慢恢复,第三天基本恢复正常!
【案例总结】
这次事故绝对是我经营生涯中的一次失败。我想总结和反思一下。希望大家可以避免类似的问题。
1.产品开发一定要避免在线开发,不能搭建开发环境省事。
2.产品迭代必须有过程记录,并且这些设置在开发过程中已经处理过了。不需要放的和必须放的要说得很清楚。
3.时刻关注百度站长后台,关注相关数据变化,及时从数据变化中发现问题。
以上是小小课堂介绍的百度官方“机器人档案”的“机器人档案”教程。谢谢收看。 seo 培训网络寻*敏*感*词*教室!