自动采集编写(优采云V8.4.0版本新增边点击边采集功能详解 )
优采云 发布时间: 2021-11-05 17:07自动采集编写(优采云V8.4.0版本新增边点击边采集功能详解
)
网站有很多,点击【加载更多】或【显示20多】按钮可以翻页。搜狗微信首页和其他页面都是这种情况。
对于此类网页,新版优采云V8.4.0 增加了【点击再点击采集】的功能,可以点击【加载更多按钮】 ] 加载一个新数据,edge 采集 每次加载新数据。
示例:设置20次点击,然后点击一次后,采集第一次点击后加载的数据,第二次继续点击,采集第二次点击后加载的数据... ...Up到20次点击,采集 20次点击后加载的数据。
使用智能识别和自行配置的采集规则,可以实现【点击后采集】。具体设置方法如下。
一、利用智能识别实现【点击和点击采集】
示例网址:
Step1:在首页输入框中输入目标网址,点击【开始采集】,优采云会自动打开网页。
打开网页后,选择【自动识别网页】,等待智能识别完成。
智能识别结束后,可以看到它自动识别了页面的【滚动】、【加载更多按钮】和【列表数据】。
Step2:点击【生成采集设置】自动生成对应的采集流程,方便用户编辑修改。
Step3:点击右上角的【采集】,选择【Start Local采集】,优采云会自动启动采集数据。
注意观察页面:优采云点击一次,采集第一次点击加载的数据,第二次继续点击,采集第二次点击加载的数据... ...直到数据全部采集 完成。
二、自行配置采集任务实现【点击侧边采集】
如果不使用智能识别,如何自己配置采集任务实现【点击侧采集】?下面是详细的解释。
示例网址:
Step1:在首页输入框中输入目标网址,点击【开始采集】,优采云会自动打开网页。如果此时软件自动识别网页,点击【取消自动识别】,我们自己配置采集任务。
Step2:根据需求配置提取数据。在示例中,我们提取列表数据。提取方法见采集列表数据教程。
Step3:提取列表数据,过程中会自动生成【循环列表】步骤。自动生成的【循环列表】不能收录所有 100 个 文章 列表。我们需要修改XPath。
点击【循环列表】框,在下方的【基本设置】页面,修改XPath为:.///*[@id='pc_0_d']//li.
Step4:找到并选择【加载更多内容】按钮,在弹出的操作提示框中选择【循环点击单个元素】,自动生成【循环翻页】步骤。
【循环翻页】在步骤中嵌入了【循环列表】的步骤,方便我们点击采集数据。
再次注意页面,这个页面会被点击5次,100条数据都会加载,所以我们设置翻页次数为5次。
Step4:点击右上角的【采集】,选择【启动本地采集】,优采云会自动启动采集数据。
注意观察页面:优采云点击一次,采集第一次点击加载的数据,第二次继续点击,采集第二次点击加载的数据... ...直到数据全部采集 完成。