动态网页抓取(robots协议（也称为爬虫协议、机器人协议等）的全称)

优采云发布时间: 2021-09-19 07:15

　　动态网站不值得担心。搜索引擎通常可以抓取动态链接，但robots文件可以轻松提高动态网站抓取的效率。我们都知道机器人协议（也称为爬虫协议、机器人协议等）的全称是“机器人排除协议”网站通过机器人协议，我们可以告诉搜索引擎哪些页面可以爬网，哪些页面不能爬网。robots协议的本质是网站和搜索引擎爬虫之间的通信，用于引导搜索引擎更好地捕获网站内容

　　百度官方建议所有网站使用robots文件，以便更好地利用蜘蛛。事实上，机器人不仅告诉搜索引擎无法捕获的内容，而且是网站优化的重要工具之一

　　Robots文件实际上是一个TXT文件。基本措辞如下：

　　用户代理：*此处的*表示各种搜索引擎，*是通配符

　　此处定义的Disallow:/admin/禁止爬网到admin目录下的目录

　　禁止：/require/此处定义的是禁止爬网到require目录下的目录

　　禁止：/ABC/此处定义的是禁止爬网到ABC目录下的目录

　　不允许：/CGI-bin/*。HTM禁止访问/CGI-bin/目录下后缀为“.HTM”的所有URL（包括子目录）

　　不允许：/*？*禁止访问网站中的所有动态页面@

　　不允许：/。JPG$禁止捕获所有。网页上的JPG格式图片

　　不允许：/AB/adc.html禁止在AB文件夹下爬行adc.html文件

　　允许：/CGI-bin/这里定义的是允许爬网到CGI-bin目录下的目录

　　允许：/tmp这里定义的是允许您对tmp进行爬网的整个目录

　　允许：。HTM$只允许访问后缀为“.HTM”的URL

　　允许：。GIF$允许您抓取网页和GIF格式的图片

　　在网站optimization中，robots文件用于告诉搜索引擎什么是重要的，建议使用robots文件来禁止对不重要的内容进行爬网。不重要内容的典型表示：网站搜索结果页

　　对于静态网站，我们可以使用disallow://**禁用动态页面爬网。但对于动态网站，您不能简单地这样做。然而，对于动态网站网站管理员来说，没有必要太担心。搜索引擎现在可以正常抓取动态页面。因此，在编写时，我们应该注意，我们可以通过搜索文件名来专门编写它。例如，您的站点是search.asp？如果后跟一个大字符串，则可以按如下方式编写：

　　不允许：/search.asp*

　　这样，您就可以屏蔽搜索结果页面。写完后，你可以去百度站长平台测试机器人，看看是否有任何错误！您可以输入URL以检查其是否正常生效

　　在这里，吴晓阳建议动态网站站长必须使用robots文件来筛选不重要内容的动态链接，以提高蜘蛛的爬行效率

　　资料来源：吴晓阳目录

0

2021-09-19

动态网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

动态网页抓取(robots协议（也称为爬虫协议、机器人协议等）的全称)

0 个评论

发起人

AI时代内容工厂

动态网页抓取(robots协议（也称为爬虫协议、机器人协议等）的全称)

0 个评论

发起人

相关问题