自动采集编写(优采云V8.4.0版本新增边点击边采集功能详解 )

优采云 发布时间: 2021-11-05 17:07

  自动采集编写(优采云V8.4.0版本新增边点击边采集功能详解

)

  网站有很多,点击【加载更多】或【显示20多】按钮可以翻页。搜狗微信首页和其他页面都是这种情况。

  对于此类网页,新版优采云V8.4.0 增加了【点击再点击采集】的功能,可以点击【加载更多按钮】 ] 加载一个新数据,edge 采集 每次加载新数据。

  示例:设置20次点击,然后点击一次后,采集第一次点击后加载的数据,第二次继续点击,采集第二次点击后加载的数据... ...Up到20次点击,采集 20次点击后加载的数据。

  使用智能识别和自行配置的采集规则,可以实现【点击后采集】。具体设置方法如下。

  一、利用智能识别实现【点击和点击采集】

  示例网址:

  Step1:在首页输入框中输入目标网址,点击【开始采集】,优采云会自动打开网页。

  打开网页后,选择【自动识别网页】,等待智能识别完成。

  智能识别结束后,可以看到它自动识别了页面的【滚动】、【加载更多按钮】和【列表数据】。

  

  Step2:点击【生成采集设置】自动生成对应的采集流程,方便用户编辑修改。

  

  Step3:点击右上角的【采集】,选择【Start Local采集】,优采云会自动启动采集数据。

  注意观察页面:优采云点击一次,采集第一次点击加载的数据,第二次继续点击,采集第二次点击加载的数据... ...直到数据全部采集 完成。

  

  二、自行配置采集任务实现【点击侧边采集】

  如果不使用智能识别,如何自己配置采集任务实现【点击侧采集】?下面是详细的解释。

  示例网址:

  Step1:在首页输入框中输入目标网址,点击【开始采集】,优采云会自动打开网页。如果此时软件自动识别网页,点击【取消自动识别】,我们自己配置采集任务。

  

  Step2:根据需求配置提取数据。在示例中,我们提取列表数据。提取方法见采集列表数据教程。

  

  Step3:提取列表数据,过程中会自动生成【循环列表】步骤。自动生成的【循环列表】不能收录所有 100 个 文章 列表。我们需要修改XPath。

  点击【循环列表】框,在下方的【基本设置】页面,修改XPath为:.///*[@id='pc_0_d']//li.

  

  Step4:找到并选择【加载更多内容】按钮,在弹出的操作提示框中选择【循环点击单个元素】,自动生成【循环翻页】步骤。

  【循环翻页】在步骤中嵌入了【循环列表】的步骤,方便我们点击采集数据。

  再次注意页面,这个页面会被点击5次,100条数据都会加载,所以我们设置翻页次数为5次。

  

  Step4:点击右上角的【采集】,选择【启动本地采集】,优采云会自动启动采集数据。

  注意观察页面:优采云点击一次,采集第一次点击加载的数据,第二次继续点击,采集第二次点击加载的数据... ...直到数据全部采集 完成。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线