Robots协议是哪些？

优采云发布时间: 2020-05-09 08:01

　　网络爬虫似乎是一种黑色产业！没有法律规定爬虫是违规的，也没有法律规定爬虫不违规，主要看爬取数据的类型，如：

　　一般来说，高度敏感的数据根本爬不了；如果是公司要求爬的，那出了事情就是公司的责任。

　　如果有些东西您不能确认是不是违规，可以向身边*敏*感*词*同事咨询或则百度微软，切莫存侥幸心理！

　　屏幕后面的您心中一定要有杆称，搞爬虫真的可能会入狱的。信息*敏*感*词*似乎是直接入狱的，而且不是按天算的，毕竟玫瑰金*敏*感*词*可摆在哪里呢！

　　这杆称就是 Robot.txt 协议。不过，Robot.txt 对学习聚焦型爬虫的我们帮助不大，就当一个常识学一下，也可以按照 Robot.txt 协议列举的网页作为指标关于网络爬虫协议文件robotstxt，Robot.txt 协议容许的网页我们能够爬，不容许的就不爬呗。

　　Robots 协议是互联网爬虫的一项公认的道德规范，全称是“网络爬虫排除标准（Robots exclusion protocol）”关于网络爬虫协议文件robotstxt，这个合同拿来告诉通用型爬虫，哪些页面是可以抓取的，哪些不可以。

　　大多数网站都有 Robots 协议，那怎么查看网站的 Robots 协议呢？

　　很简单，在网站的根目录域名后加上/robots.txt就可以了。例如，通过这个链接可以查看网店的 Robots 协议。

User-agent: * #所有爬虫，如百度、谷歌、必应

Disallow: /subject_search #禁止访问 /subject_search

Disallow: /amazon_search

Disallow: /search

Disallow: /group/search

Disallow: /event/search

Disallow: /celebrities/search

Disallow: /location/drama/search

Disallow: /forum/

Disallow: /new_subject

Disallow: /service/iframe

Disallow: /j/

Disallow: /link2/

Disallow: /recommend/

Disallow: /doubanapp/card

Disallow: /update/topic/

Allow: /ads.txt #允许访问 /ads.txt

Sitemap: https://www.douban.com/sitemap_index.xml

Sitemap: https://www.douban.com/sitemap_updated_index.xml

#sitemap文件里面是新产生的URL，有豆瓣网前一天的影评、书评、帖子等等，可以减少网站的带宽消耗。

User-agent: Wandoujia Spider #如果是豌豆荚爬虫

Disallow: / #禁止访问所有页面(完全屏蔽)

User-agent: Mediapartners-Google #谷歌的广告爬虫，当网页投放了谷歌的广告时，他就会来抓取，对网页进行分析，然后投放最佳的广告...

Disallow: /subject_search #禁止访问 /subject_search

Disallow: /amazon_search

Disallow: /search

Disallow: /group/search

Disallow: /event/search

Disallow: /celebrities/search

Disallow: /location/drama/search

Disallow: /j/

　　Allow 代表准许访问，Disallow 就是严禁访问，User-agent 可以判定是哪家爬虫，经常形成新数据网站 sitemap 文件会用的比较多。

　　豆瓣的 robots.txt 文件表示：

　　常见的搜索引擎爬虫有：

　　因为网站上的目录貌似就是笔记本里的文件夹，robots.txt 协议处于网站的根目录下，任何人都可以直接输入路径打开并查看上面的内容，就可以比较清楚的了解网站的结构。

　　robots.txt 相关新闻：

　　黑客方法也可以通过 robots.txt 协议听到这个网站是不是一个网站模版系统建成的。比如，我在某个网站的域名后加上/robots.txt：

　　通过剖析里面这份 Robots 协议，发现这个网站是 DedeCMS 模板搭建而成（/plus/ad_js.php 等都是 DedeCMS 网站通用的）。

　　DedeCMS 模版原型如下：

　　不妨试一试，打开以下 URL：

　　:8010/csrf/uploads

　　如果在根目录域名后加/dede，可步入后台。

　　它的登陆用户名是 admin，登录密码是 admin123。

　　黑客们也是通过类似的方法获取网站的管理权限......如找寻当前模版版本的通杀漏洞、字典爆破管理员密码等。

0

2020-05-09

robots协议

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Robots协议是哪些？

0 个评论

发起人

AI时代内容工厂

Robots协议是哪些？

0 个评论

发起人

相关问题