网站搜索引擎优化是什么(网站页面被搜索引擎收录的越多越好.txt文本文件)
优采云 发布时间: 2022-01-07 23:08网站搜索引擎优化是什么(网站页面被搜索引擎收录的越多越好.txt文本文件)
我们经常觉得网站被搜索引擎搜索到的页面越多越好。这句话本身并没有错,但是我们会发现很多网站页面不需要收录已经收录,我们需要搜索引擎收录' s 页面,但不是 收录。其实爬虫爬我们的时间是有限的网站。如何在有限的时间内抓取更多我们的页面,我们要告诉爬虫去抓取我们需要它抓取的内容页面,那么我们需要一个robots.txt文本文件。
什么是robots.txt文件
Robots是网站和爬虫之间的协议。它使用简单直接的txt格式文本方式告诉对应的爬虫允许的权限,也就是说robots.txt是在搜索引擎中访问网站时查看的第一个文件。当搜索引擎蜘蛛访问一个站点时,它首先会检查站点根目录下是否存在robots.txt。如果存在,搜索机器人会根据文件内容确定访问范围;如果该文件不存在,所有搜索蜘蛛将能够访问 网站 上没有密码保护的所有页面。
放置 robots.txt 文件的位置
robots.txt文件放在网站的根目录下。搜索引擎蜘蛛访问站点时,首先会检查站点根目录下是否有robots.txt文件。如果搜索引擎蜘蛛找到这个文件,它会根据文件的内容确定其访问权限的范围。
robots.txt 规则
此文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow 行,详细信息如下:
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被协议限制。对于这个文件,至少有一个 User-agent 记录。如果该项的值设置为*,则该协议对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”这样的一条记录。
不允许:
此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow:/help”不允许搜索引擎访问/help.html 和/help/index.html,而“Disallow:/help/”允许机器人访问/help.html 但不允许访问/help/index . .html。如果任何 Disallow 记录为空,则表示允许访问 网站 的所有部分。“/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”是一个空文件,这个网站 对所有搜索引擎机器人都是开放的。
允许:
此项的值用于描述您要访问的一组 URL。与 Disallow 项类似,该值可以是完整路径或路径前缀。允许机器人访问以 Allow 项的值开头的 URL。例如“允许:/baidu”允许机器人访问/baidu.htm、/baiducom.html、/baidu/com.html。网站 的所有 URL 默认都是 Allow 的,所以 Allow 通常与 Disallow 结合使用,允许访问某些网页,同时禁止访问所有其他 URL。
robots.txt 语法