java爬虫抓取动态网页(spider,大数据的兴起,爬虫应用被提升到前所未有高度)
优采云 发布时间: 2021-10-26 14:06java爬虫抓取动态网页(spider,大数据的兴起,爬虫应用被提升到前所未有高度)
又称蜘蛛,起源于百度和谷歌。但随着近年来大数据的兴起,爬虫应用被提升到了前所未有的高度。就大数据而言,实际上,自有数据或用户生成数据的平台非常有限。只有电商、微博这样的平台才能避免自给自足。许多数据分析和挖掘公司使用网络爬虫来获得不同的结果。元数据采集,最终用于它,构建自己的大数据集成平台。其中,舆情、财经股票分析、广告数据挖掘等都属于这一类。技术层面描述如下。
(1)传统爬虫,如nutch、hetriex等,比较适合抓取简单的页面,即没有复杂请求的页面。但是随着web2.0的兴起,越来越网站 很多动态交互技术,比如ajax,用来提升用户体验,页面需要登录才能访问等,无能为力,或者二次开发的开发成本太高,很多人给使用它们。
(2)定制爬虫,对于一些大数据平台,如微博、电商、大众点评等,页面交互复杂,用户登录后才能访问,往往需要定制开发一些爬虫项目,比如微博专用的微博爬虫、大众点评的自定义爬虫、豆瓣书评的评论爬虫都是典型的自定义爬虫,比传统爬虫难度大,需要相应的定制分析工具和能力,只有扎实的编程功底,优化效率,克服验证码,拒绝服务等反爬措施,才能做出这种高效的爬虫,现在主流还是基于httpclient+jsoup来处理网络下载和页面分析。
(3) 一种新型爬虫,结合一些成熟的第三方工具,如c/c++实现的webkit、htmlunit、phantomjs、casper等工具。共同点是最大限度地模拟人的方式浏览器的操作,用(1)、(2))不容易解决的问题,比如模拟登录、复杂参数的获取、复杂的页面交互等,这些问题往往可以轻松解决通过使用以上工具,其最大的缺点是基于真实浏览器的操作,所以效率比较低,所以往往需要结合httpclient来达到高效实用的目的。 on phantomjs 也证明了这一点,下一步可以结合起来。完成微博爬虫的模拟登录获取cookies,然后使用httpclient+jsoup解决海量数据的抓取,是一个非常不错的微博爬虫方案。
因为它需要的知识相对较多,所以它的待遇比web开发高,增长的速度和速度比web开发高很多。
三、自然语言处理