搜索引擎如何抓取网页(1.要不要使用robots.txt文件的几个问题值得讨论一下)

优采云发布时间: 2022-03-09 02:14

　　robots.txt文件是引导搜索引擎Spider爬取网站的文件。合理使用robots.txt文件，可以防止你的网站中后台登录等秘密页面被搜索引擎抓取、索引和发布，也可以阻止搜索引擎抓取网站非内容pages ，并且只允许搜索引擎抓取和收录带来排名和流量的页面。在robots.xt文件的使用中，有几个问题值得讨论。

　　1.你要使用robots.txt吗

　　对于网站需要屏蔽Spider爬取的内容，当然需要robots.xt文件。但是对于网站想要把所有内容都打开到Spiderl来说，robots.xt是没有意义的，那么这个时候我们还需要这个robots.xt文件吗？

　　2012年11月1日，百度、360、搜狗等国内主流搜索引擎签署了《互联网搜索引擎服务自律公约》，表示均支持机器人协议。搜索引擎支持robots协议，即需要先爬取网站的robots.txt文件，才能爬取网站的内容。

　　如果网站没有设置robots.xt文件，正常情况下服务器会返回404状态码，但有些服务器会返回200或其他错误。对于返回 404 状态码的服务器，不需要特殊处理。因为搜索引擎发现网站一两次没有设置robots.xt文件，在一定时间内不会再次爬取，但是网站的内容会正常爬取。对于返回404状态码以外信息的服务器，最好重新配置服务器，

　　设置为向访问服务器上不存在的 URL 或文件的用户返回 404 状态代码。如果无法配置，则在网站根目录下放一个空设置或 robots.xt 文件，以允许完整内容设置，以防止服务器误导蜘蛛。

　　有人认为如果允许蜘蛛爬取整个站点，在服务器上放一个robots.xt 文件可能会浪费蜘蛛的爬取时间，毕竟对于一个网站的爬取时间是有限的。事实上，这种担心是不必要的。不管你有没有设置robots.xt文件，搜索引擎都会频繁爬取这个文件，因为搜索引擎不知道你以后是否要设置或更新这个文件。为了符合互联网协议，只能频繁爬取这个文件。并且搜索引擎一天只爬取robots.xt文件几次，不会造成网站爬取次数的浪费。

　　2.不同的搜索引擎对robots协议的支持不同

　　尽管所有主要搜索引擎都声称支持 robots 协议，但对于 robots.xt 文件中的限制语句，可能存在不同的匹配解释。在后续的谷歌站长“拦截网址”介绍中，介绍了百度和谷歌robots协议匹配的区别。即“Disallow:tmp”在百度中无法匹配“/tmpdaf'”，但在谷歌中可以匹配。因此，站长和SEO人员在配置robots.txt文件时需要特别注意。最好使用通用的屏蔽语句，或者研究几个主流搜索引擎的官方帮助说明，针对不同的搜索引擎进行单独的屏蔽设置。

　　3.robots.txt 可以声明网站maps

　　robots.txt 文件可以声明网站maps 的位置，此外还可以限制搜索引擎抓取。这其实是谷歌支持的功能。站长可以通过谷歌站长直接向谷歌提交XML版本或纯文本网站地图，也可以选择在robots.xt文件中添加一行声明：

　　该声明与限制搜索引擎爬取的声明无关，可以放在文件的任何位置。不过暂时只有 Go0gle 支持。百度搜索工程师曾经表示不支持（如图5-8所示），现在百度在站长平台有专门的Sitemap提交入口，所以这个说法对百度不一定有效。但是由于robots.xt文件的特性，搜索引擎必须频繁爬取这个文件，所以在robots.xt文件中声明网站图，只是为了促使搜索引擎爬取网站@ > 看，它只是好的和无害的。

　　4.robots 元标记的使用

　　除了网站根目录下的 robots.txt 文件，robots 协议还可以使用 meta 标签。具体写法如下：

　　nofollow 后面会详细介绍，noarchive 意思是禁止显示截图，即网友搜索你的网站时，只能输入你的网站浏览内容，不能通过搜索引擎。抓拍浏览您的网站的内容。在元标记中使用 nofollow 以防止搜索引擎跟踪页面上的链接。在网络和其他 SEO 书籍中值得一提

0

2022-03-09

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(1.要不要使用robots.txt文件的几个问题值得讨论一下)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页(1.要不要使用robots.txt文件的几个问题值得讨论一下)

0 个评论

发起人

相关问题