网页视频抓取软件 格式工厂( Robots协议(也称为爬虫协议、机器人协议等)是什么)

优采云 发布时间: 2022-01-21 22:15

  网页视频抓取软件 格式工厂(

Robots协议(也称为爬虫协议、机器人协议等)是什么)

  网站建筑和机器人协议

  Robots协议(也称为爬虫协议、机器人协议等)是指网站通过Robots协议通知搜索引擎哪些页面可以爬取,哪些页面不能爬取。网站在构建过程中要注意使用Robots协议,避免误用和阻塞页面导致网站no收录。

  

  文件写入

  User-agent:*这里*代表所有类型的搜索引擎,*是通配符,User-agent:BaiduSpider指定百度蜘蛛

  

  Disallow:此项用于描述不希望被抓取和索引的 URL

  Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

  Disallow: /require/ 这个定义是禁止爬取require目录下的目录

  Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

  禁止:/cgi-bin/*.htm 禁止访问/cgi-bin/ 目录中所有以“.htm”为后缀的URL(包括子目录)。

  Disallow: /*?* 禁止访问所有在 网站 中收录问号 (?) 的 URL

  Disallow: /.jpg$ 禁止抓取来自网络的所有 .jpg 图像

  Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件。

  allow: /cgi-bin/这个定义是允许cgi-bin目录下的目录被爬取

  allow: /tmp 这里的定义是允许爬取tmp的整个目录

  允许:.htm$ 只允许访问以“.htm”为后缀的 URL。

  允许:.gif$ 允许抓取网页和 gif 格式的图片

  查询方式:域名/robots.txt

  (1)禁止所有搜索引擎访问网站的任何部分。

  用户代理: *

  不允许: /

  (2)所有机器人都可以不受任何限制地访问。

  用户代理: *

  不允许:

  或者

  用户代理: *

  允许: /

  Disallow 和 Allow 可以同时使用。例如,要阻止子目录中除特定页面之外的所有页面,您可以编写:

  用户代理: *

  不允许: //

  允许://index.html

  这意味着所有的蜘蛛只能爬取//index.html页面,而//文件夹中的其他页面无法爬取。

  丹鹿云建站系统是基于丹鹿云SAAS云架构开发的。集展示、电商、微信、论坛、分类信息、分发、会员卡等功能于一体,内置上万种样式和组件,客户可以像PPT一样做。网站,可以自由设计PC网站、手机网站、微信、APP的建站系统。通过使用系统内置的模块和组件,减少了传统网站建设的中间环节,提高了网站建设的效率!

  开通丹鹿云账号即可拥有:

  一个可以像PPT一样做网站的DIY云建站系统;

  自定义主题的微信游戏系统;

  线上线下O2O电子商务系统;

  集手机号、微信、邮箱为一体的客户注册管理系统。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线