URL输入功能升级简介

优采云 发布时间: 2020-08-07 05:17

  本文介绍了如何在自定义采集模式下将文件导入大批URL,批量生成URL以及在关联任务中导入URL.

  采集数据时,许多用户会遇到这种情况:

  通过升级和优化自定义集合URL的输入,优采云有效地解决了上述问题,主要是以下三个功能.

  1. 文件导入大量网址

  当前,手动输入支持的URL数量受到限制. 如果URL的数量相对较多,我们可以直接从本地文件中批量导入URL,进行保存,然后配置规则.

  具体操作如下:

  在自定义集合的主界面中,选择“从文件导入”,然后选择一个现有的URL文件以进行大量导入.

  如下所示,导入后,您可以预览前100个URL.

  

  使用条件:

  1. 支持cxv,xls,xlsx,txt文件格式

  2. 支持100w以内的URL,并自动删除超过URL的

  2. 批量生成网址

  当需要在同一网站上同时采集多个页面时,我们可以使用此功能批量生成URL,这可以节省大量时间进行翻页或重复搜索. 只要URL满足条件,就可以通过自动生成的设置逻辑,然后利用云采集的原理来拆分采集任务,可以大大提高采集效率.

  如何使用URL批量生成功能?

  也在自定义模式输入界面中,选择“批量生成”

  

  让我们以京东的网页为例:

  这是京东iphone作为关键字的第三页URL. 我们可以根据这种格式替换关键字,以生成多个产品的网址,

  首先选择需要用鼠标设置的关键字,然后单击以添加参数

  

  单击后,您会看到在弹出窗口中可以编辑和更改4种类型的参数:

  数字更改: 可以设置为从某个数字开始,每次递增或递减X位,设置总数,并设置零填充.

  字母更改: 从特定字母转换为特定字母

  时间更改: 可以设置时间段更改

  自定义列表: 您可以将所需的一些关键字作为URL参数的一部分

  自定义列表

  因为在此示例中设置了关键字,所以选择“自定义列表”作为参数类型,在下面的框中填写需要采集的关键字参数,例如计算机,手机,鼠标,然后单击“确定”.

  

  号码更改

  类似地,选择页码,单击“添加参数”,然后设置与页码相关的参数. 在这里,参数类型选择数字更改,然后观察页面URL的更改以设置特定的参数配置. 如果需要从第一页开始采集,则起始值为1;否则为0. 差异为1,每个动作递增为1. 如果您需要采集11页,则结束值为11,并且项的数量从第1页到第11页. 总共有11条.

  

  设置参数后,您可以预览生成的URL. 如下图所示

  

  在此京东示例中,仅需要设置这两个参数. 让我们看看另外两个.

  字母更改

  

  与上述相同,根据变化规律将字母从a设置为某个字母

  时间更改

  

  如上所示,选择适当的时间格式,然后设置开始时间和结束时间.

  注意:

  可以支持批量生成100W以内的URL,并且仅在超过100W时才生成100W.

  批量生成的前100个URL本地存储并显示在界面上; > 100个URL存储在云中,并且不显示在界面上. 当是本地或云集合时,存储在云中的URL直接称为数据集合.

  如果您复制此规则,则复制的规则将仅收录前100个URL,并且仅采集前100个URL的数据.

  3. 链接任务导入URL

  还有另一种导入URL的方法. 您可以选择其他任务采集的URL,并将其直接导入以进行关联的采集. 例如,一个任务同时采集列表页面和详细信息页面,因此无法使用云采集和拆分. 如果使用关联的采集功能,则可以将此任务转换为两个任务: 任务A采集列表信息,任务B采集详细信息,两个任务都可以在云中拆分,并且采集效率得到了很大提高(请注意,如果当采集网站列表页面进入详细信息页面时,URL不会更改,无法使用此方法)

  具体操作如下:

  在自定义模式条目中选择“从任务导入”

  我们将导入的任务称为“源任务”,导入URL后新配置的任务称为“跟随任务”

  

  然后使用下拉箭头选择采集任务和字段,您可以完全导入源任务采集的URL.

  注意: 导入时,必须确保源任务在云中具有数据.

  

  完成规则配置后,可以在保存和启动集合时选择“遵循启动设置”.

  

  然后您可以从弹出窗口中选择4种不同的启动方法来满足不同的采集方案,

  源任务需要一定数量的数据,跟随任务可以采集数据,因此可以根据采集情况选择以下四种跟随任务启动方法.

  

  您还可以在任务列表中设置跟随开始

  

  注意: Follow任务不能设置为定期启动,只能由源任务触发.

  开始采集时,如果选择“采集所有URL”,则优采云将采集该任务的所有导入URL;如果您选择“仅采集预览网址”,则优采云将为该任务采集多达100个预览网址

  

  提醒: 仅Ultimate Edition(以上)软件包的用户支持导入相关任务. 转到升级旗舰版

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线