excel抓取多页网页数据(如何设置瀑布流+页码页码数据?操作流程)

优采云 发布时间: 2021-12-24 05:12

  excel抓取多页网页数据(如何设置瀑布流+页码页码数据?操作流程)

  通过前几节课的学习,我们学习了【采集单数据】、【多列表数据】、【表格数据】,点击链接进入【详情页数据】。】每日采集数据,网页数据不止一页,会有很多页,我们来学习如何设置分页数据,采集多页多数据?

  首先介绍几种常见的分页类型以及如何使用优采云采集分页方式。

  一、自动识别分页

  优采云识别90%分页元素的操作如下: 选择分页设置-自动分页识别,识别成功后会提示已识别分页元素。

  

  操作流程如下:

  

  二、手动设置分页

  有少量网站,自动识别分页不成功,这时候我们需要手动设置分页。手动分页分为两步:

  01:选择分页设置-手动设置分页

  02:点击选择分页元素,在浏览器中找到下一个页面元素点击

  

  操作流程如下:

  

  三、瀑布式寻呼

  在日常采集中,我遇到很多使用瀑布分页技术的网页,比如百度图片、知乎、今日头条,这类网页,随着鼠标向下滑动,不断加载新数据。

  操作如下:选择分页设置-瀑布分页采集器会自动滚动到网页,直到分页完成。

  

  四、瀑布流+页码的组合形式

  在每天的采集中,有少量的网站分页符比较特殊。例如,向下滚动 5 次后,将显示页码。这时候我们就需要使用瀑布流+页码的形式来完成页面设置。

  如何判断瀑布分页?

  我们以京东商品搜索为例。

  在起始页的输入框中输入目标URL,点击下一步,优采云自动识别产品列表(注意:本站需要登录,点击登录,关闭即可)。

  可以看到优采云的第一页自动识别了30个产品列表,但第一页实际上有60个产品列表。下面,将优采云中的产品列表从上往下滚动,刷新后查看列表数据,可以看到60个产品列表都被识别出来了,可以判断这是瀑布式加载。

  

  如何设置瀑布流+分页页码?

  使用脚本命令手动添加滚动命令,具体设置滚动页面,滚动间隔时间,具体网站需要测试。

  以如下京东商品搜索为例:%E5%BE%AE%E6%B3%A2%E7%82%89&enc=utf-8&suggest=4.his.0.0&wq=&pvid=2d6c994230244efaa9d609c1

  Step1:分页设置-瀑布分页

  

  Step2:点击script command-add command-scroll

  (注:通过不断的调整和测试,滚动几页和滚动间隔时间的具体设置需要针对具体网站进行测试。最终目的是滚动整个页面,从上到下滚动)

  

  3:设置

  其他设置中勾选页面上的Execute 采集脚本,这样每次打开页面都会执行scroll命令。

  

  通过以上操作,一个完整的瀑布流+分页页码组合,我们就设置好了。

  人性化设置:

  1、设置采集最大分页

  这个设置在更新采集时被广泛使用,非常方便。比如每天更新的网站的内容在前3页,我们可以设置最大分页为3页,这样优采云就是采集更新前3页数据,节省时间和准确性采集。

  

  2、加载更多表单

  某些网站 下一页会使用像Load More 这样的按钮,单击它可以显示更多数据。采集对于这种类型的页面,我们需要手动设置分页,只需点击加载更多作为下一页按钮。

  通过本次讲座,我们掌握了优采云三种寻呼方式,自动识别寻呼>手动寻呼>瀑布寻呼,这三种类型覆盖了全网99%的寻呼元素。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线