怎样抓取网页数据(返回伪造信息这真的是程序员为什么困扰程序员？(图))

优采云发布时间: 2022-02-08 10:18

　　一、返回虚假信息

　　这真的是程序员麻烦程序员的原因吗？反爬虫工程师也在努力。一方面，它们阻止了*敏*感*词*捕获真实数据，另一方面，它们也增加了后期数据处理的负担。如果数据伪造的很好，你可能不容易发现你爬的是假数据，当然只能以后清理。

　　二、减少回报

　　最基本的真实数据是隐藏的，信息只能通过不断的加载来刷新。还有一个色狼，只会给你展示部分信息，人是看不到的，爬虫也无能为力。像 CNKI 一样，每次搜索您只能获得非常有限的内容。这似乎不是一个好的解决方案，但网站这样做是少数，因为这样做实际上会牺牲一些真实的用户体验。

　　三、动态加载

　　异步加载一方面是为了反爬虫，另一方面可以给网页浏览带来不一样的体验，实现更多的功能。许多动态网站通过 ajax 或 JavaScript 加载所需的网页。

　　遇到动态加载的网页，需要分析ajax请求。一般可以直接找到收录我们需要的json文件。

　　如果网站加密文件，可以通过selenium+phantomJS框架调用浏览器核心，使用phantomJS执行js，模拟手动操作，触发页面中的js脚本。从理论上讲，selenium 是一个比较全面的爬虫解决方案，因为它确实是一种用户行为。除非网站的反爬虫严格，否则还是误杀为妙。

　　四、IP 限制

　　限制IP也是很多网站反爬虫的初衷。有些人写了一个随机循环并开始暴力抓取，这确实给网站服务器带来了很大的负载。这种频繁访问显然不是真正的用户行为，而是干脆果断地屏蔽了你。

　　在这种情况下，您可以遵循规则并减慢爬行速度，一次停止几秒钟。如果爬取的数据量不大，实际上并不会浪费太多时间。无论如何，您也可以将这段时间用于其他事情或考试。

　　当然，你也可以通过不断更换IP来绕过这个限制。互联网上有很多免费的 IP 资源。可以自己搭建IP池，达到一定数量就可以切换IP。

　　很多工作需要获取大量的信息和数据分析挖掘，但是依靠人工太慢，大量的数据分析得出的结果更可靠，所以各行各业都离不开爬虫抓取数据。面对这些反爬虫，爬虫只能不断想办法突围。比如IP限制就是使用代理IP来突破。代理云HTTP代理可以为爬虫提供大量的IP资源进行突破。

　　这里推荐一个适合爬虫的代理ip---代理云

　　爬虫小伙伴可以去获取免费代理IP试试看！

　　国产优质动态IP。老化时间2-10分钟，注册即可免费领取10000个代理IP。

　　———————————————

　　原文链接：爬取时如何使用反爬机制-zhima_zhushou的博客-CSDN博客

0

2022-02-08

怎样抓取网页数据

0 个评论

要回复文章请先登录或注册