网站搜索引擎优化是什么(网站页面被搜索引擎收录的越多越好.txt文本文件)

优采云 发布时间: 2022-01-07 23:08

  网站搜索引擎优化是什么(网站页面被搜索引擎收录的越多越好.txt文本文件)

  我们经常觉得网站被搜索引擎搜索到的页面越多越好。这句话本身并没有错,但是我们会发现很多网站页面不需要收录已经收录,我们需要搜索引擎收录' s 页面,但不是 收录。其实爬虫爬我们的时间是有限的网站。如何在有限的时间内抓取更多我们的页面,我们要告诉爬虫去抓取我们需要它抓取的内容页面,那么我们需要一个robots.txt文本文件。

  

  什么是robots.txt文件

  Robots是网站和爬虫之间的协议。它使用简单直接的txt格式文本方式告诉对应的爬虫允许的权限,也就是说robots.txt是在搜索引擎中访问网站时查看的第一个文件。当搜索引擎蜘蛛访问一个站点时,它首先会检查站点根目录下是否存在robots.txt。如果存在,搜索机器人会根据文件内容确定访问范围;如果该文件不存在,所有搜索蜘蛛将能够访问 网站 上没有密码保护的所有页面。

  放置 robots.txt 文件的位置

  robots.txt文件放在网站的根目录下。搜索引擎蜘蛛访问站点时,首先会检查站点根目录下是否有robots.txt文件。如果搜索引擎蜘蛛找到这个文件,它会根据文件的内容确定其访问权限的范围。

  robots.txt 规则

  此文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow 行,详细信息如下:

  用户代理:

  此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被协议限制。对于这个文件,至少有一个 User-agent 记录。如果该项的值设置为*,则该协议对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”这样的一条记录。

  不允许:

  此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow:/help”不允许搜索引擎访问/help.html 和/help/index.html,而“Disallow:/help/”允许机器人访问/help.html 但不允许访问/help/index . .html。如果任何 Disallow 记录为空,则表示允许访问 网站 的所有部分。“/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”是一个空文件,这个网站 对所有搜索引擎机器人都是开放的。

  允许:

  此项的值用于描述您要访问的一组 URL。与 Disallow 项类似,该值可以是完整路径或路径前缀。允许机器人访问以 Allow 项的值开头的 URL。例如“允许:/baidu”允许机器人访问/baidu.htm、/baiducom.html、/baidu/com.html。网站 的所有 URL 默认都是 Allow 的,所以 Allow 通常与 Disallow 结合使用,允许访问某些网页,同时禁止访问所有其他 URL。

  

  robots.txt 语法

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线