动态网页抓取(robots协议(也称为爬虫协议、机器人协议等)的全称)
优采云 发布时间: 2021-09-19 07:15动态网页抓取(robots协议(也称为爬虫协议、机器人协议等)的全称)
动态网站不值得担心。搜索引擎通常可以抓取动态链接,但robots文件可以轻松提高动态网站抓取的效率。我们都知道机器人协议(也称为爬虫协议、机器人协议等)的全称是“机器人排除协议”网站通过机器人协议,我们可以告诉搜索引擎哪些页面可以爬网,哪些页面不能爬网。robots协议的本质是网站和搜索引擎爬虫之间的通信,用于引导搜索引擎更好地捕获网站内容
百度官方建议所有网站使用robots文件,以便更好地利用蜘蛛。事实上,机器人不仅告诉搜索引擎无法捕获的内容,而且是网站优化的重要工具之一
Robots文件实际上是一个TXT文件。基本措辞如下:
用户代理:*此处的*表示各种搜索引擎,*是通配符
此处定义的Disallow:/admin/禁止爬网到admin目录下的目录
禁止:/require/此处定义的是禁止爬网到require目录下的目录
禁止:/ABC/此处定义的是禁止爬网到ABC目录下的目录
不允许:/CGI-bin/*。HTM禁止访问/CGI-bin/目录下后缀为“.HTM”的所有URL(包括子目录)
不允许:/*?*禁止访问网站中的所有动态页面@
不允许:/。JPG$禁止捕获所有。网页上的JPG格式图片
不允许:/AB/adc.html禁止在AB文件夹下爬行adc.html文件
允许:/CGI-bin/这里定义的是允许爬网到CGI-bin目录下的目录
允许:/tmp这里定义的是允许您对tmp进行爬网的整个目录
允许:。HTM$只允许访问后缀为“.HTM”的URL
允许:。GIF$允许您抓取网页和GIF格式的图片
在网站optimization中,robots文件用于告诉搜索引擎什么是重要的,建议使用robots文件来禁止对不重要的内容进行爬网。不重要内容的典型表示:网站搜索结果页
对于静态网站,我们可以使用disallow://**禁用动态页面爬网。但对于动态网站,您不能简单地这样做。然而,对于动态网站网站管理员来说,没有必要太担心。搜索引擎现在可以正常抓取动态页面。因此,在编写时,我们应该注意,我们可以通过搜索文件名来专门编写它。例如,您的站点是search.asp?如果后跟一个大字符串,则可以按如下方式编写:
不允许:/search.asp*
这样,您就可以屏蔽搜索结果页面。写完后,你可以去百度站长平台测试机器人,看看是否有任何错误!您可以输入URL以检查其是否正常生效
在这里,吴晓阳建议动态网站站长必须使用robots文件来筛选不重要内容的动态链接,以提高蜘蛛的爬行效率
资料来源:吴晓阳目录