云采集(Octopus cloud采集原理与规则加速设置教程.docx )

优采云 发布时间: 2021-09-07 18:38

  云采集(Octopus cloud采集原理与规则加速设置教程.docx

)

  优采云·云采集服务平台uationWarning:ThedocumentwascreatedwithSpire..优采云云采集原理和规则加速设置教程对于旗舰版以上的用户,可以使用cloud采集实现多任务并发与有序 任务加速的采集效果,可以让用户快速采集整理互联网公共数据。本教程主要讲cloud采集原理和规则加速设置。 一、云采集原理 A. 一个规则任务给云采集至少占用一个云节点,最多可以占用所有云节点 B.如果一个规则任务满足拆分子任务的要求,则可以最多拆分为199个A子任务 C.一个子任务占用一个节点,子任务完成即表示该任务完成 D.一个常规任务拆分为多个子任务分配到不同的云节点,达到提速的效果up 采集 E.如果云节点被占用如果已满,新启动的任务或拆分的子任务将进入等待队列,直到用户的某个云节点执行完用户的某个任务并释放该节点资源。分配给云节点,多任务并发采集数据,如红框所示,由于节点已满,只能进入等待队列,等待一个云节点完成资源释放的执行。 二、云采集Acceleration 设置可以从cloud采集principle D 中得知。如果一个任务是为了加速采集的效果,那么这个任务必须满足拆分条件或者将任务改为满足拆分条件,所以才能达到单任务加速的效果。满足拆分条件的任务有: A. URL 列表循环 B. 文本列表循环 C. 固定元素列表循环 1、URL 列表循环,文本循环 示例 URL:rch/category/15/30 对于非 AJAX网站 ,以公众店铺为例,假设我想要采集此网站类别下的所有店铺,那么我们可以先采集类别网址,然后对采集店铺信息做URL循环,具体步骤如下: 步骤一:我们先把所有的具体分类采集下载下来,如图2采集评论分类URL 图2采集评论分类URL Tips采集整理好分类URL后,我们可以使用此 URL 作为 URL 数据提取循环执行。这样,通过优采云自动拆分任务,可以将不同的URL拆分成不同的子任务,分配给不同的云节点进行数据采集,实现单任务加速采集效果步骤2:通过采集中的第一步,建立URL循环数据采集的URL,如图3 URL循环列表图3 URL循环列表采集 第三步:效果对比,如图4 Native采集与URL循环列表对比cloud采集采集efficiency 图4 Cloud采集采集速小贴士云采集除了采集efficiency比这台机器采集更高,它还可以节省用户自己的计算机和网络资源,与本地采集消耗用户本地计算机资源和网络资源相比,云采集使用的资源都是云节点资源,用户启动云@后可以关闭客户端采集、优采云会数据在优采云客户端自动排序汇总。用户只需要在提取数据后通过客户端查看或导出数据,即可得出结论:URL循环教程已经讲解完毕。对于文本循环,原理和URL循环一致,通过文本循环的拆分,达到单任务加速采集的效果,从而改进采集speed2、fixed element list loop 固定元素list loop也满足分裂条件,需要固定元素列表。循环点击与固定元素列表结合使用。例如:图5 Fixed element list-点击某个元素,但是以下情况不会加快采集率,例如: 图6 Fixed element list-data提取 原因是因为fixed element list-extraction虽然数据可以拆分成子任务,因为提取同页数据的操作非常快,几乎没有任务加速效果。 例如:子任务A:打开网页(20s)-提取位置a数据(0. 1s)子任务B:打开网页(20s)-提取位置b数据(0.1s)子任务C:打开网页(20s)-提取位置c数据(0.1s)...子任务N:打开网页页面(20s)-提取位置n数据(0.1s)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线