htmlunit抓取动态网页(1024程序员节#通过java实现爬虫动态获取网站数据通过)
优采云 发布时间: 2021-11-10 23:20htmlunit抓取动态网页(1024程序员节#通过java实现爬虫动态获取网站数据通过)
#1024程序员节#
通过java实现爬虫动态获取网站数据
通过上次demo的实现,对爬虫有了一定的了解和认识,并进行了深入的研究和学习,成功的动态获取了更多的数据。
上次demo后发现每次通过商品列表获取的数据都是有限的,只有几个。我在想如何自动点击产品,进入产品详情页面,获取更多数据,然后返回产品列表。页。这形成了一个循环以获取更多数据。经过思考和尝试,终于实现了这个功能。
1.创建一个maven项目
首先,创建一个maven项目。
2.介绍相关jar包
由于工作原因,一直没有时间将数据导出到excel文件,所以还是只有控制台输出。导入jar包如下。
3.代码编写
这段代码中增加了自动跳转到商品详情页,获取数据后返回商品列表页,循环进行获取。
代码中最外层的for循环的作用就是实现翻页操作。当产品第一页的数据采集完成后,跳转到产品列表页面的第二页,继续循环获取详细的产品数据。
4.运行结果
成功获取多页产品的详细数据,结果如图。因为我用的是海外购物网站,所以得到的数据不是中文的。
总结:
通过这次实战,对爬虫有了更深入的了解,掌握了动态获取数据的方式。美中不足的是,暂时没有时间将数据导出到excel文件。我会抓紧时间实现自己的这个想法,把外文数据转换成中文。这就是我需要继续学习和尝试的地方,这样我才能逐渐成长。