搜索引擎如何抓取网页(1.要不要使用robots.txt文件的几个问题值得讨论一下)
优采云 发布时间: 2022-03-09 02:14搜索引擎如何抓取网页(1.要不要使用robots.txt文件的几个问题值得讨论一下)
robots.txt文件是引导搜索引擎Spider爬取网站的文件。合理使用robots.txt文件,可以防止你的网站中后台登录等秘密页面被搜索引擎抓取、索引和发布,也可以阻止搜索引擎抓取网站非内容pages ,并且只允许搜索引擎抓取和收录带来排名和流量的页面。在robots.xt文件的使用中,有几个问题值得讨论。
1.你要使用robots.txt吗
对于网站需要屏蔽Spider爬取的内容,当然需要robots.xt文件。但是对于网站想要把所有内容都打开到Spiderl来说,robots.xt是没有意义的,那么这个时候我们还需要这个robots.xt文件吗?
2012年11月1日,百度、360、搜狗等国内主流搜索引擎签署了《互联网搜索引擎服务自律公约》,表示均支持机器人协议。搜索引擎支持robots协议,即需要先爬取网站的robots.txt文件,才能爬取网站的内容。
如果网站没有设置robots.xt文件,正常情况下服务器会返回404状态码,但有些服务器会返回200或其他错误。对于返回 404 状态码的服务器,不需要特殊处理。因为搜索引擎发现网站一两次没有设置robots.xt文件,在一定时间内不会再次爬取,但是网站的内容会正常爬取。对于返回404状态码以外信息的服务器,最好重新配置服务器,
设置为向访问服务器上不存在的 URL 或文件的用户返回 404 状态代码。如果无法配置,则在 网站 根目录下放一个空设置或 robots.xt 文件,以允许完整内容设置,以防止服务器误导蜘蛛。
有人认为如果允许蜘蛛爬取整个站点,在服务器上放一个robots.xt 文件可能会浪费蜘蛛的爬取时间,毕竟对于一个网站 的爬取时间是有限的。事实上,这种担心是不必要的。不管你有没有设置robots.xt文件,搜索引擎都会频繁爬取这个文件,因为搜索引擎不知道你以后是否要设置或更新这个文件。为了符合互联网协议,只能频繁爬取这个文件。并且搜索引擎一天只爬取robots.xt文件几次,不会造成网站爬取次数的浪费。
2.不同的搜索引擎对robots协议的支持不同
尽管所有主要搜索引擎都声称支持 robots 协议,但对于 robots.xt 文件中的限制语句,可能存在不同的匹配解释。在后续的谷歌站长“拦截网址”介绍中,介绍了百度和谷歌robots协议匹配的区别。即“Disallow:tmp”在百度中无法匹配“/tmpdaf'”,但在谷歌中可以匹配。因此,站长和SEO人员在配置robots.txt文件时需要特别注意。最好使用通用的屏蔽语句,或者研究几个主流搜索引擎的官方帮助说明,针对不同的搜索引擎进行单独的屏蔽设置。
3.robots.txt 可以声明网站maps
robots.txt 文件可以声明 网站maps 的位置,此外还可以限制搜索引擎抓取。这其实是谷歌支持的功能。站长可以通过谷歌站长直接向谷歌提交XML版本或纯文本网站地图,也可以选择在robots.xt文件中添加一行声明:
网站地图:
该声明与限制搜索引擎爬取的声明无关,可以放在文件的任何位置。不过暂时只有 Go0gle 支持。百度搜索工程师曾经表示不支持(如图5-8所示),现在百度在站长平台有专门的Sitemap提交入口,所以这个说法对百度不一定有效。但是由于robots.xt文件的特性,搜索引擎必须频繁爬取这个文件,所以在robots.xt文件中声明网站图,只是为了促使搜索引擎爬取网站@ > 看,它只是好的和无害的。
4.robots 元标记的使用
除了 网站 根目录下的 robots.txt 文件,robots 协议还可以使用 meta 标签。具体写法如下:
nofollow 后面会详细介绍,noarchive 意思是禁止显示截图,即网友搜索你的网站时,只能输入你的网站浏览内容,不能通过搜索引擎。抓拍浏览您的 网站 的内容。在元标记中使用 nofollow 以防止搜索引擎跟踪页面上的链接。在网络和其他 SEO 书籍中值得一提