URL输入功能升级简介
优采云 发布时间: 2020-08-07 05:17本文介绍了如何在自定义采集模式下将文件导入大批URL,批量生成URL以及在关联任务中导入URL.
采集数据时,许多用户会遇到这种情况:
通过升级和优化自定义集合URL的输入,优采云有效地解决了上述问题,主要是以下三个功能.
1. 文件导入大量网址
当前,手动输入支持的URL数量受到限制. 如果URL的数量相对较多,我们可以直接从本地文件中批量导入URL,进行保存,然后配置规则.
具体操作如下:
在自定义集合的主界面中,选择“从文件导入”,然后选择一个现有的URL文件以进行大量导入.
如下所示,导入后,您可以预览前100个URL.
使用条件:
1. 支持cxv,xls,xlsx,txt文件格式
2. 支持100w以内的URL,并自动删除超过URL的
2. 批量生成网址
当需要在同一网站上同时采集多个页面时,我们可以使用此功能批量生成URL,这可以节省大量时间进行翻页或重复搜索. 只要URL满足条件,就可以通过自动生成的设置逻辑,然后利用云采集的原理来拆分采集任务,可以大大提高采集效率.
如何使用URL批量生成功能?
也在自定义模式输入界面中,选择“批量生成”
让我们以京东的网页为例:
这是京东iphone作为关键字的第三页URL. 我们可以根据这种格式替换关键字,以生成多个产品的网址,
首先选择需要用鼠标设置的关键字,然后单击以添加参数
单击后,您会看到在弹出窗口中可以编辑和更改4种类型的参数:
数字更改: 可以设置为从某个数字开始,每次递增或递减X位,设置总数,并设置零填充.
字母更改: 从特定字母转换为特定字母
时间更改: 可以设置时间段更改
自定义列表: 您可以将所需的一些关键字作为URL参数的一部分
自定义列表
因为在此示例中设置了关键字,所以选择“自定义列表”作为参数类型,在下面的框中填写需要采集的关键字参数,例如计算机,手机,鼠标,然后单击“确定”.
号码更改
类似地,选择页码,单击“添加参数”,然后设置与页码相关的参数. 在这里,参数类型选择数字更改,然后观察页面URL的更改以设置特定的参数配置. 如果需要从第一页开始采集,则起始值为1;否则为0. 差异为1,每个动作递增为1. 如果您需要采集11页,则结束值为11,并且项的数量从第1页到第11页. 总共有11条.
设置参数后,您可以预览生成的URL. 如下图所示
在此京东示例中,仅需要设置这两个参数. 让我们看看另外两个.
字母更改
与上述相同,根据变化规律将字母从a设置为某个字母
时间更改
如上所示,选择适当的时间格式,然后设置开始时间和结束时间.
注意:
可以支持批量生成100W以内的URL,并且仅在超过100W时才生成100W.
批量生成的前100个URL本地存储并显示在界面上; > 100个URL存储在云中,并且不显示在界面上. 当是本地或云集合时,存储在云中的URL直接称为数据集合.
如果您复制此规则,则复制的规则将仅收录前100个URL,并且仅采集前100个URL的数据.
3. 链接任务导入URL
还有另一种导入URL的方法. 您可以选择其他任务采集的URL,并将其直接导入以进行关联的采集. 例如,一个任务同时采集列表页面和详细信息页面,因此无法使用云采集和拆分. 如果使用关联的采集功能,则可以将此任务转换为两个任务: 任务A采集列表信息,任务B采集详细信息,两个任务都可以在云中拆分,并且采集效率得到了很大提高(请注意,如果当采集网站列表页面进入详细信息页面时,URL不会更改,无法使用此方法)
具体操作如下:
在自定义模式条目中选择“从任务导入”
我们将导入的任务称为“源任务”,导入URL后新配置的任务称为“跟随任务”
然后使用下拉箭头选择采集任务和字段,您可以完全导入源任务采集的URL.
注意: 导入时,必须确保源任务在云中具有数据.
完成规则配置后,可以在保存和启动集合时选择“遵循启动设置”.
然后您可以从弹出窗口中选择4种不同的启动方法来满足不同的采集方案,
源任务需要一定数量的数据,跟随任务可以采集数据,因此可以根据采集情况选择以下四种跟随任务启动方法.
您还可以在任务列表中设置跟随开始
注意: Follow任务不能设置为定期启动,只能由源任务触发.
开始采集时,如果选择“采集所有URL”,则优采云将采集该任务的所有导入URL;如果您选择“仅采集预览网址”,则优采云将为该任务采集多达100个预览网址
提醒: 仅Ultimate Edition(以上)软件包的用户支持导入相关任务. 转到升级旗舰版