java爬虫抓取动态网页(spider,大数据的兴起，爬虫应用被提升到前所未有高度)

优采云发布时间: 2021-10-26 14:06

　　又称蜘蛛，起源于百度和谷歌。但随着近年来大数据的兴起，爬虫应用被提升到了前所未有的高度。就大数据而言，实际上，自有数据或用户生成数据的平台非常有限。只有电商、微博这样的平台才能避免自给自足。许多数据分析和挖掘公司使用网络爬虫来获得不同的结果。元数据采集，最终用于它，构建自己的大数据集成平台。其中，舆情、财经股票分析、广告数据挖掘等都属于这一类。技术层面描述如下。

　　（1）传统爬虫，如nutch、hetriex等，比较适合抓取简单的页面，即没有复杂请求的页面。但是随着web2.0的兴起，越来越网站很多动态交互技术，比如ajax，用来提升用户体验，页面需要登录才能访问等，无能为力，或者二次开发的开发成本太高，很多人给使用它们。

　　（2）定制爬虫，对于一些大数据平台，如微博、电商、大众点评等，页面交互复杂，用户登录后才能访问，往往需要定制开发一些爬虫项目，比如微博专用的微博爬虫、大众点评的自定义爬虫、豆瓣书评的评论爬虫都是典型的自定义爬虫，比传统爬虫难度大，需要相应的定制分析工具和能力，只有扎实的编程功底，优化效率，克服验证码，拒绝服务等反爬措施，才能做出这种高效的爬虫，现在主流还是基于httpclient+jsoup来处理网络下载和页面分析。

　　（3）一种新型爬虫，结合一些成熟的第三方工具，如c/c++实现的webkit、htmlunit、phantomjs、casper等工具。共同点是最大限度地模拟人的方式浏览器的操作，用(1）、(2）)不容易解决的问题，比如模拟登录、复杂参数的获取、复杂的页面交互等，这些问题往往可以轻松解决通过使用以上工具，其最大的缺点是基于真实浏览器的操作，所以效率比较低，所以往往需要结合httpclient来达到高效实用的目的。 on phantomjs 也证明了这一点，下一步可以结合起来。完成微博爬虫的模拟登录获取cookies，然后使用httpclient+jsoup解决海量数据的抓取，是一个非常不错的微博爬虫方案。

　　因为它需要的知识相对较多，所以它的待遇比web开发高，增长的速度和速度比web开发高很多。

　　三、自然语言处理

0

2021-10-26

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取动态网页(spider,大数据的兴起，爬虫应用被提升到前所未有高度)

0 个评论

发起人