网站内容抓取(robots协议(也称为爬虫协议、机器人协议等)的全称)

优采云 发布时间: 2022-01-17 18:10

  网站内容抓取(robots协议(也称为爬虫协议、机器人协议等)的全称)

  动态网站不用担心,搜索引擎可以正常抓取动态链接,但是使用robots文件可以轻松提升动态网站的抓取效率。我们都知道robots协议(也称为爬虫协议、机器人协议等)的全称是“Robots Exclusion Protocol”。无法抓取该页面。Robots协议的本质是网站与搜索引擎爬虫之间的通信方式,用于引导搜索引擎更好地抓取网站内容。

  百度官方建议所有网站都使用robots文件,以更好地利用蜘蛛爬行。事实上,机器人不仅告诉搜索引擎什么不能被抓取,也是网站优化的重要工具之一。

  robots文件实际上是一个txt文件。其基本写法如下:

  User-agent:*这里*代表所有类型的搜索引擎,*是通配符

  Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

  Disallow: /require/ 这个定义是禁止爬取require目录下的目录

  Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

  禁止:/cgi-bin/*.htm 禁止访问/cgi-bin/ 目录中所有以“.htm”为后缀的URL(包括子目录)。

  Disallow: /*?* 禁止访问 网站 中的所有动态页面

  Disallow: /.jpg$ 禁止抓取来自网络的所有 .jpg 图像

  Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件。

  allow: /cgi-bin/这个定义是允许cgi-bin目录下的目录被爬取

  allow: /tmp 这里的定义是允许爬取tmp的整个目录

  允许:.htm$ 只允许访问以“.htm”为后缀的 URL。

  允许:.gif$ 允许抓取网页和 gif 格式的图片

  在网站优化方面,robots文件用于告诉搜索引擎哪些内容是重要的,建议robots文件禁止抓取不重要的内容。不重要内容的典型特征:网站 的搜索结果页面。

  对于静态 网站,我们可以使用 Disallow: /*?* 来禁用动态页面爬取。但是对于动态的网站,就不能这么简单了。不过对于动态网站站长来说,不用太担心,搜索引擎现在可以正常抓取动态页面了。那么在写的时候一定要注意,可以具体写搜索文件的名字。例如,你的网站是一个长长的列表,在 search.asp? 之后,那么你可以这样写:

  禁止:/search.asp?*

  这样就可以屏蔽搜索结果页面。写完可以去百度站长平台查看机器人,看看有没有错误!您可以输入 URL 以检查它是否正常工作。

  这里吴晓阳建议动态网站的站长一定要使用robots文件来屏蔽不重要内容的动态链接,提高蜘蛛的抓取效率!

  本文来源:吴晓阳目录

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线