关于爬虫程序的合法性？

优采云发布时间: 2020-05-10 08:03

　　希望本回答能解决楼主的问题。此回答摘录自本人所写的书《Python 网络爬虫：从入门到实践》第一章

　　从目前的情况来看，如果抓取的数据属于个人使用或科研范畴爬虫程序，基本不存在问题; 而假如数据属于商业赢利范畴，就要就事而论，有可能属于*敏*感*词*，也有可能不违规。

　　网络爬虫领域目前还属于拓荒阶段，虽然互联网世界早已通过自身的合同构建起一定的道德规范(Robots 协议)，但法律部份还在完善和建立中。也就是说，现在这个领域暂时还是灰色地带。

　　Robots 协议

　　Robots协议（也称为爬虫协议）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎什么页面可以抓取，哪些页面不能抓取。它是国际互联网界通行的道德规范，虽然没有写入法律，但是每一个爬虫都应当遵循这项合同。

　　下面以淘宝网的robots.txt为例：

　　这里仅截取部份，查看完整可以访问taobao.com/robots.txt

　　User-agent: Baiduspider #百度爬虫引擎

Allow: /article #允许访问/article.htm，/article/12345.com

Allow: /oshtml

Allow: /wenzhang

Disallow: /product/ #禁止访问/product/12345.com

Disallow: / #禁止了访问除Allow规定页面的其他所有页面

User-Agent: Googlebot #谷歌爬虫引擎

Allow: /article

Allow: /oshtml

Allow: /product #允许访问/product.htm，/product/12345.com

Allow: /spu

Allow: /dianpu

Allow: /wenzhang

Allow: /oversea

Disallow: /

　　在前面的robots文件中，淘宝网对用户代理为百度爬虫引擎进行规定。

　　以”Allow”项的值开头的URL 是容许robot访问的。例如，”Allow: /article”允许百度爬虫引擎访问”/article.htm，/article/12345.com”等等。

　　以Disallow项为开头的链接是不容许百度爬虫引擎访问的。例如，”Disallow: /product/”不容许百度爬虫引擎访问 ”/product/12345.com” 等等。

　　最后一行，”Disallow: /”则严禁了百度爬虫访问不仅”Allow”规定页面的其他所有页面。

　　因此，当你在百度搜索“淘宝”的时侯，搜索结果下方的篆字会出现：“由于该网站的robots.txt文件存在限制指令（限制搜索引擎抓取），系统未能提供该页面的内容描述”。百度作为一个搜索引擎，良好地遵循了淘宝网的 robot.txt 协议，所以你是不能从百度上搜索到天猫内部的产品信息的。

　　淘宝的Robots协议对微软爬虫的待遇则不一样，和百度爬虫不同的是，它容许微软爬虫爬取产品的页面，”Allow: /product”。因此，当你在微软搜索“淘宝 iphone7”的时侯，可以搜索到天猫中的产品。

　　因此，当你爬取网站数据时，无论你是否仅仅用来个人使用，都应当遵循robots协议。

　　2. 网络爬虫的约束

　　除了上述的 Robot 协议之外，我们使用网路爬虫的时侯要对自己进行约束：过于快速或则频密的网络爬虫就会对服务器形成巨大的压力，网站可能封锁你的IP，甚至采取进一步的法律行动。

　　各大互联网大鳄也早已开始调集资源，限制爬虫，保护真正用户的流量和降低有价值数据的流失。

　　2007年，爱帮网借助垂直搜索技术获取了大众点评网上的商户简介和消费者点评爬虫程序，并且直接大量使用，于是大众点评网多次要求爱帮停止使用大众点评网的内容。而爱帮网则以自己是垂直搜索网站为由，拒绝停止抓取大众点评网上的内容，并且指责大众点评网对那些内容所享有的著作权。为此，双方开打了两场官司。2011年1月，北京海淀*敏*感*词*作出裁定：爱帮网侵害大众点评网著作权创立，爱帮网应该停止侵权并赔付大众点评网经济损失和诉讼必要开支。

　　2013年10月，百度诉360违背Robots协议，百度方面觉得，360违背了Robots协议，擅自抓取、复制百度网站内容并生成快照向用户提供。2014年08月07日，北京市第一中级人民*敏*感*词*做出二审裁定，*敏*感*词*觉得被告奇虎360的行为违背了《反不正当竞争法》相关规定，应赔付上诉百度公司70万元。

　　虽然说，大众点评上的点评数据，百度知道的问答由用户创建而非企业，但是搭建平台须要投入营运、技术和人力成本，那么平台拥有对数据的所有权，使用权和分发权。

　　以上两起败诉告诉我们，在爬取网站的时侯，需要限制自己的爬虫，遵守Robots协议和约束网路爬虫程序的速率；在使用数据的时侯，必须要遵循网站的知识产权。如果违犯了这种规定，很可能会吃官司，并且败诉机率相当高。

　　以上回答摘录自本人所写的书《Python 网络爬虫：从入门到实践》第一章：网络爬虫合法吗？

0

2020-05-10

python爬虫网络爬虫

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

关于爬虫程序的合法性？

0 个评论

发起人