网站搜索引擎优化是什么(网站页面被搜索引擎收录的越多越好.txt文本文件)

优采云发布时间: 2022-01-07 23:08

　　我们经常觉得网站被搜索引擎搜索到的页面越多越好。这句话本身并没有错，但是我们会发现很多网站页面不需要收录已经收录，我们需要搜索引擎收录' s 页面，但不是收录。其实爬虫爬我们的时间是有限的网站。如何在有限的时间内抓取更多我们的页面，我们要告诉爬虫去抓取我们需要它抓取的内容页面，那么我们需要一个robots.txt文本文件。

　　什么是robots.txt文件

　　Robots是网站和爬虫之间的协议。它使用简单直接的txt格式文本方式告诉对应的爬虫允许的权限，也就是说robots.txt是在搜索引擎中访问网站时查看的第一个文件。当搜索引擎蜘蛛访问一个站点时，它首先会检查站点根目录下是否存在robots.txt。如果存在，搜索机器人会根据文件内容确定访问范围；如果该文件不存在，所有搜索蜘蛛将能够访问网站上没有密码保护的所有页面。

　　放置 robots.txt 文件的位置

　　robots.txt文件放在网站的根目录下。搜索引擎蜘蛛访问站点时，首先会检查站点根目录下是否有robots.txt文件。如果搜索引擎蜘蛛找到这个文件，它会根据文件的内容确定其访问权限的范围。

　　robots.txt 规则

　　此文件中的记录通常以一行或多行 User-agent 开头，后跟几行 Disallow 行，详细信息如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，表示多个robots会被协议限制。对于这个文件，至少有一个 User-agent 记录。如果该项的值设置为*，则该协议对任何机器人都有效。在“robots.txt”文件中，只能有“User-agent:*”这样的一条记录。

　　不允许：

　　此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如，“Disallow:/help”不允许搜索引擎访问/help.html 和/help/index.html，而“Disallow:/help/”允许机器人访问/help.html 但不允许访问/help/index . .html。如果任何 Disallow 记录为空，则表示允许访问网站的所有部分。“/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”是一个空文件，这个网站对所有搜索引擎机器人都是开放的。

　　允许：

　　此项的值用于描述您要访问的一组 URL。与 Disallow 项类似，该值可以是完整路径或路径前缀。允许机器人访问以 Allow 项的值开头的 URL。例如“允许：/baidu”允许机器人访问/baidu.htm、/baiducom.html、/baidu/com.html。网站的所有 URL 默认都是 Allow 的，所以 Allow 通常与 Disallow 结合使用，允许访问某些网页，同时禁止访问所有其他 URL。

　　robots.txt 语法

0

2022-01-07

网站搜索引擎优化是什么

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站搜索引擎优化是什么(网站页面被搜索引擎收录的越多越好.txt文本文件)

0 个评论

发起人

AI时代内容工厂

网站搜索引擎优化是什么(网站页面被搜索引擎收录的越多越好.txt文本文件)

0 个评论

发起人

相关问题