htmlunit抓取动态网页(1024程序员节#通过java实现爬虫动态获取网站数据通过)

优采云 发布时间: 2021-11-10 23:20

  htmlunit抓取动态网页(1024程序员节#通过java实现爬虫动态获取网站数据通过)

  #1024程序员节#

  通过java实现爬虫动态获取网站数据

  通过上次demo的实现,对爬虫有了一定的了解和认识,并进行了深入的研究和学习,成功的动态获取了更多的数据。

  上次demo后发现每次通过商品列表获取的数据都是有限的,只有几个。我在想如何自动点击产品,进入产品详情页面,获取更多数据,然后返回产品列表。页。这形成了一个循环以获取更多数据。经过思考和尝试,终于实现了这个功能。

  1.创建一个maven项目

  首先,创建一个maven项目。

  

  2.介绍相关jar包

  由于工作原因,一直没有时间将数据导出到excel文件,所以还是只有控制台输出。导入jar包如下。

  

  3.代码编写

  这段代码中增加了自动跳转到商品详情页,获取数据后返回商品列表页,循环进行获取。

  代码中最外层的for循环的作用就是实现翻页操作。当产品第一页的数据采集完成后,跳转到产品列表页面的第二页,继续循环获取详细的产品数据。

  

  4.运行结果

  成功获取多页产品的详细数据,结果如图。因为我用的是海外购物网站,所以得到的数据不是中文的。

  

  总结:

  通过这次实战,对爬虫有了更深入的了解,掌握了动态获取数据的方式。美中不足的是,暂时没有时间将数据导出到excel文件。我会抓紧时间实现自己的这个想法,把外文数据转换成中文。这就是我需要继续学习和尝试的地方,这样我才能逐渐成长。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线