Robots协议是哪些?
优采云 发布时间: 2020-05-09 08:01网络爬虫似乎是一种黑色产业!没有法律规定爬虫是违规的,也没有法律规定爬虫不违规,主要看爬取数据的类型,如:
一般来说,高度敏感的数据根本爬不了;如果是公司要求爬的,那出了事情就是公司的责任。
如果有些东西您不能确认是不是违规,可以向身边*敏*感*词*同事咨询或则百度微软,切莫存侥幸心理!
屏幕后面的您心中一定要有杆称,搞爬虫真的可能会入狱的。信息*敏*感*词*似乎是直接入狱的,而且不是按天算的,毕竟玫瑰金*敏*感*词*可摆在哪里呢!
这杆称就是 Robot.txt 协议。不过,Robot.txt 对学习聚焦型爬虫的我们帮助不大,就当一个常识学一下,也可以按照 Robot.txt 协议列举的网页作为指标关于网络爬虫协议文件robotstxt,Robot.txt 协议容许的网页我们能够爬,不容许的就不爬呗。
Robots 协议是互联网爬虫的一项公认的道德规范,全称是“网络爬虫排除标准(Robots exclusion protocol)”关于网络爬虫协议文件robotstxt,这个合同拿来告诉通用型爬虫,哪些页面是可以抓取的,哪些不可以。
大多数网站都有 Robots 协议,那怎么查看网站的 Robots 协议呢 ?
很简单,在网站的根目录域名后加上/robots.txt就可以了。例如,通过 这个链接可以查看网店的 Robots 协议。
User-agent: * #所有爬虫,如百度、谷歌、必应
Disallow: /subject_search #禁止访问 /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt #允许访问 /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
#sitemap文件里面是新产生的URL,有豆瓣网前一天的影评、书评、帖子等等,可以减少网站的带宽消耗。
User-agent: Wandoujia Spider #如果是豌豆荚爬虫
Disallow: / #禁止访问所有页面(完全屏蔽)
User-agent: Mediapartners-Google #谷歌的广告爬虫,当网页投放了谷歌的广告时,他就会来抓取,对网页进行分析,然后投放最佳的广告...
Disallow: /subject_search #禁止访问 /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/
Allow 代表准许访问,Disallow 就是严禁访问,User-agent 可以判定是哪家爬虫,经常形成新数据网站 sitemap 文件会用的比较多。
豆瓣的 robots.txt 文件表示:
常见的搜索引擎爬虫有:
因为网站上的目录貌似就是笔记本里的文件夹,robots.txt 协议处于网站的根目录下,任何人都可以直接输入路径打开并查看上面的内容,就可以比较清楚的了解网站的结构。
robots.txt 相关新闻:
黑客方法也可以通过 robots.txt 协议听到这个网站是不是一个网站模版系统建成的。比如,我在某个网站的域名后加上/robots.txt:
通过剖析里面这份 Robots 协议,发现这个网站是 DedeCMS 模板搭建而成(/plus/ad_js.php 等都是 DedeCMS 网站通用的)。
DedeCMS 模版原型如下:
不妨试一试,打开以下 URL:
:8010/csrf/uploads
如果在根目录域名后加/dede,可步入后台。
它的登陆用户名是 admin,登录密码是 admin123。
黑客们也是通过类似的方法获取网站的管理权限......如找寻当前模版版本的通杀漏洞、字典爆破管理员密码等。