网页视频抓取软件 格式工厂( Robots协议(也称为爬虫协议、机器人协议等)是什么)
优采云 发布时间: 2022-01-21 22:15网页视频抓取软件 格式工厂(
Robots协议(也称为爬虫协议、机器人协议等)是什么)
网站建筑和机器人协议
Robots协议(也称为爬虫协议、机器人协议等)是指网站通过Robots协议通知搜索引擎哪些页面可以爬取,哪些页面不能爬取。网站在构建过程中要注意使用Robots协议,避免误用和阻塞页面导致网站no收录。
文件写入
User-agent:*这里*代表所有类型的搜索引擎,*是通配符,User-agent:BaiduSpider指定百度蜘蛛
Disallow:此项用于描述不希望被抓取和索引的 URL
Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录
Disallow: /require/ 这个定义是禁止爬取require目录下的目录
Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录
禁止:/cgi-bin/*.htm 禁止访问/cgi-bin/ 目录中所有以“.htm”为后缀的URL(包括子目录)。
Disallow: /*?* 禁止访问所有在 网站 中收录问号 (?) 的 URL
Disallow: /.jpg$ 禁止抓取来自网络的所有 .jpg 图像
Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件。
allow: /cgi-bin/这个定义是允许cgi-bin目录下的目录被爬取
allow: /tmp 这里的定义是允许爬取tmp的整个目录
允许:.htm$ 只允许访问以“.htm”为后缀的 URL。
允许:.gif$ 允许抓取网页和 gif 格式的图片
查询方式:域名/robots.txt
(1)禁止所有搜索引擎访问网站的任何部分。
用户代理: *
不允许: /
(2)所有机器人都可以不受任何限制地访问。
用户代理: *
不允许:
或者
用户代理: *
允许: /
Disallow 和 Allow 可以同时使用。例如,要阻止子目录中除特定页面之外的所有页面,您可以编写:
用户代理: *
不允许: //
允许://index.html
这意味着所有的蜘蛛只能爬取//index.html页面,而//文件夹中的其他页面无法爬取。
丹鹿云建站系统是基于丹鹿云SAAS云架构开发的。集展示、电商、微信、论坛、分类信息、分发、会员卡等功能于一体,内置上万种样式和组件,客户可以像PPT一样做。网站,可以自由设计PC网站、手机网站、微信、APP的建站系统。通过使用系统内置的模块和组件,减少了传统网站建设的中间环节,提高了网站建设的效率!
开通丹鹿云账号即可拥有:
一个可以像PPT一样做网站的DIY云建站系统;
自定义主题的微信游戏系统;
线上线下O2O电子商务系统;
集手机号、微信、邮箱为一体的客户注册管理系统。