动态网页抓取( robots协议(也称为爬虫协议、机器人协议等)的全称)
优采云 发布时间: 2021-11-10 20:01动态网页抓取(
robots协议(也称为爬虫协议、机器人协议等)的全称)
动态网站不用担心,搜索引擎可以正常抓取动态链接,但是使用robots文件可以轻松提高动态网站的抓取效率。我们都知道robots协议(也叫爬虫协议、机器人协议等)的全称是“Robots Exclusion Protocol”。网站 告诉搜索引擎哪些页面可以爬取,哪些页面通过Robots 协议爬取。无法抓取该页面。Robots协议的本质是网站与搜索引擎爬虫之间的通信方式,用于引导搜索引擎更好地抓取网站的内容。
百度官方建议所有网站使用robots文件,以更好地利用蜘蛛爬行。实际上,robots 不仅是告诉搜索引擎哪些不能抓取,也是网站优化的重要工具之一。
robots文件实际上是一个txt文件。基本措辞如下:
User-agent: * 其中*代表所有类型的搜索引擎,*是通配符
disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录
Disallow: /require/ 这里的定义是禁止爬取require目录下的目录
Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录
禁止:/cgi-bin/*.htm 禁止访问 /cgi-bin/ 目录中所有后缀为“.htm”的 URL(包括子目录)。
Disallow: /*?* 禁止访问 网站 中的所有动态页面
Disallow: /.jpg$ 禁止抓取网络上所有.jpg 格式的图片
Disallow:/ab/adc.html 禁止抓取ab文件夹下的adc.html文件。
Allow:这里定义了/cgi-bin/,允许爬取cgi-bin目录下的目录
Allow: /tmp 这里的定义是允许爬取tmp的整个目录
允许:.htm$ 只允许访问带有“.htm”后缀的 URL。
允许:.gif$ 允许抓取网页和 gif 格式的图像
在网站优化方面,robots文件用于告诉搜索引擎什么是重要的内容,推荐robots文件禁止爬取不重要的内容。不重要内容的典型代表:网站的搜索结果页。
对于静态网站,我们可以使用Disallow: /*?* 来禁止动态页面爬取。但是对于动态网站,你不能简单地做到这一点。不过对于动态网站的站长来说,就不用太担心了。搜索引擎现在可以正常抓取动态页面。所以在写的时候一定要注意,可以专门写到搜索文件的名字。例如,如果您的站点是 search.asp? 后面的一个长列表,那么您可以这样写:
禁止:/search.asp?*
这样就可以屏蔽搜索结果页面。写完之后可以在百度站长平台上查看robots,看看有没有错误!您可以输入 URL 来检查它是否正常工作。
在这里,吴晓阳建议动态网站的站长一定要用robots文件来屏蔽不重要的内容动态链接,提高蜘蛛的抓取效率!
本文来源:吴晓阳目录