智能标签采集器( 如何把优采云采集器2个标签采集的内容组合在一起改怎么做)

优采云 发布时间: 2022-02-20 21:28

  智能标签采集器(

如何把优采云采集器2个标签采集的内容组合在一起改怎么做)

  优采云采集器标签组合截图教程_爬虫软件技术与爬虫软件网页资料采集器传送门

  图 160S

  2018 年 10 月 26 日

  如何组合优采云采集器2个标签采集的内容?

  这里可以使用优采云采集器的标签组合,如下图:

  

  我们把标题和下载地址标签组合成一个新标签,用“$$$$”隔开,我们的测试结果如下:

  

  那么还有另一种组合标签的方式,见下图:

  

  这个测试的结果是什么?应该和上面的情况一样。谁知道呢,让我们测试一下看看。

  

  哦,太神奇了,都是一样的,所以有两种结合方式

  标签组合功能使用说明

  优采云采集器v7版本增加标签组合功能。很多朋友发现组合的结果和自己想要的结果不一致。让我解释一下这个功能的使用。

  1.标签组合为文件下载前的内容

  有朋友发现a标签中下载了一个文件,原来的地址是aaa,而下载或探测的地址是bbb,那么,如果在b标签中结合使用a标签,a标签的值为啊。为什么?使用这种处理方法是因为文件下载发生在标签组装之后。如何实现标签的内容是文件下载后的结果?您可以创建一个新标签,选择“自定义固定格式数据”,然后将标签组合的内容放入其中。此处的替换将在文件下载后执行。

  2.优采云采集器内容页面标签循环采集并添加为新记录

  如果这两个组合的标签是内容页标签,当这两个标签组合在一起时,会根据循环次数最多的记录生成一条循环次数相同的新记录。如果某个标签的循环次数较少,则新生成的标签中该标签的值为空。例如,标签 a 和 b 组合起来生成标签 c。a的循环数为5,b的循环数为3,会产生5个cs,其中前3个标签的值是a和b一一对应。在最后两个值中,b 的值为空。假设a的值为11、22、33、44、55,b的值为aa、bb、cc.c由组合而成,则生成的c值为11aa、22bb、33cc、44, 55.

  3.优采云采集器列表页标签和内容页标签组合

  如果这两个标签中的一个是内容页,另一个是列表页,则内容页将参与第2项中的循环处理,在此过程中列表页将被视为字符串。合并完成后,程序会进行数据处理操作。最后,将组合选项卡中的列表页选项卡内容替换为实际值。可以提取并再次下载组合结果。比如内容页a和列表页b组合生成c,其中a的值为11、22、22,b的值为bb,则c的第一个组合结果为11、22, 33,然后处理数据。如果b的值为bb,那么最终的结果可能是11bb、22bb、33bb。

  有的朋友可能会说,为什么要把这个功能搞得这么复杂。其实这个函数主要用于第一个函数,其他的组合可能会产生和原来想法不同的结果。建议您不要滥用此功能,也不要将其视为灵丹妙药。

  相关标签

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线