seo工具-百度快照诊断功能(昆明seo：robots文件可以告诉蜘蛛哪些页面是可以抓取的)

优采云发布时间: 2022-02-01 18:01

　　昆明seo：robots文件可以告诉蜘蛛哪些页面可以爬，哪些页面不可以爬，在网站与搜索引擎的沟通中占据非常重要的位置。

　　今天小小课堂为大家介绍百度官网的“机器人档案”教程。昆明seo希望对大家有所帮助。

　　一、什么是机器人文件

　　机器人是网站与蜘蛛沟通的重要渠道。该站点通过robots文件声明了网站中不想被搜索引擎收录搜索到的部分，或者指定搜索引擎仅收录特定部分。请注意，仅当您的网站收录您不想被搜索引擎收录搜索的内容时，才需要 robots.txt 文件。如果您想要搜索引擎收录网站上的所有内容，请不要创建 robots.txt 文件。为防止设置robots文件时站长出现，百度站长平台特推出robots工具，帮助站长正确设置robots。

　　二、robots.txt 文件格式

　　robots 文件通常放置在根目录中，收录一个或多个由空行分隔的记录（以 CR、CR/NL 或 NL 结尾）。每条记录的格式如下：

　　“：”

　　#可用于该文件中的注释，具体用法与UNIX中的约定相同。该文件中的记录通常以一行或多行 User-agent 开头，后接几行 Disallow 和 Allow 行，具体如下：

　　1、用户代理

　　此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，则表示多个机器人会受到“robots.txt”的限制。对于此文件，必须至少有一个 User-agent 记录。如果此项的值设置为 *，则对任何机器人都有效。在“robots.txt”文件中，“User-agent:*”只能有一条记录。如果在“robots.txt”文件中，添加“User-agent: SomeBot”和几行 Disallow 和 Allow 行，则名称“SomeBot”仅受“User-agent: SomeBot”后面的 Disallow 和 Allow 行限制。

　　2、禁止

　　该项的值用于描述一组不想被访问的URL。该值可以是完整路径，也可以是路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如，“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html，而“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html，并且无法访问/help/index.html。 “Disallow:”表示允许机器人访问网站的所有URL，且“/robots.txt”文件中必须至少有一条Disallow记录。如果“/robots.txt”不存在或为空文件，则网站对所有搜索引擎机器人开放。

　　3、允许

　　该项的值用来描述一组你想被访问的URL。与 Disallow 项类似，该值可以是完整路径，也可以是路径前缀。以 Allow 项的值开头的 URL 是允许机器人访问。例如“允许：/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站的所有 URL 默认情况下都是 Allow，因此 Allow 通常与 Disallow 结合使用，以允许访问某些网页，同时禁止访问所有其他 URL。

　　4、使用“*”和“$”

　　Baiduspider 支持使用通配符“*”和“$”来模糊匹配 url。

　　"*" 匹配零个或多个任意字符

　　"$" 匹配行终止符。

　　最后要注意的是：百度会严格遵守robots的相关协议，请注意区分不想被爬取的目录或收录的大小写，百度会精准匹配爬取的带收录的目录，否则robots协议不会生效。

　　三、robots.txt 文件使用示例

　　四、网站Robots被误挡怎么办

　　机器人文件是搜索生态中一个非常重要的环节，也是一个非常详细的环节。在网站的操作过程中，很多站长和同学很容易忽视robots文件的存在，误覆盖或者禁止所有robots，造成不必要的损失！（昆明seo提醒机器人不要乱玩。）

　　如果机器人被误封了怎么办？今天请来厦门258网站运营经理郑俊伟，分享一下网站机器人被误封后怎么办？

　　【案例背景】

　　网站开发2.0版本，技术选择在线开发，为防止搜索引擎爬取开发版本，要求技术人员设置机器人封禁处理。 2.0版本的开发周期为1个月。 1个月后，网站版本迭代，直接覆盖1.0版本，包括Robots封禁文件。 2天后发现流量明显下降，查看1.@收录发现800万收录下降为0，关键词下降不少。

　　【处理方式】

　　1.将Robots禁令修改为允许，然后去百度站长后台检测并更新Robots。

　　2.百度站长后台爬取检测显示爬取失败，没关系，点击爬取几次触发蜘蛛爬取网站。

　　3.百度站长后台抓取频率，申请增加抓取频率。

　　4.百度反馈中心，反馈是误操作造成的。

　　5.百度站长后台链接提交，设置数据主动推送（实时）。

　　6.更新站点地图网站地图，重新提交百度，每天手动提交一次。

　　以上处理完成后，接下来就是等待了。好在2天的时间数据开始慢慢恢复，第三天基本恢复正常！

　　【案例总结】

　　这次事故绝对是我经营生涯中的一次失败。我想总结和反思一下。希望大家可以避免类似的问题。

　　1.产品开发一定要避免在线开发，不能搭建开发环境省事。

　　2.产品迭代必须有过程记录，并且这些设置在开发过程中已经处理过了。不需要放的和必须放的要说得很清楚。

　　3.时刻关注百度站长后台，关注相关数据变化，及时从数据变化中发现问题。

　　以上是小小课堂介绍的百度官方“机器人档案”的“机器人档案”教程。谢谢收看。 seo 培训网络寻*敏*感*词*教室！

0

2022-02-01

seo工具_百度快照诊断功能

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo工具-百度快照诊断功能(昆明seo：robots文件可以告诉蜘蛛哪些页面是可以抓取的)

0 个评论

发起人

AI时代内容工厂

seo工具-百度快照诊断功能(昆明seo：robots文件可以告诉蜘蛛哪些页面是可以抓取的)

0 个评论

发起人

相关问题