免规则采集器列表算法(采集器中起始网址可以使用批量网址的字段都在列表 )
优采云 发布时间: 2022-04-05 01:04免规则采集器列表算法(采集器中起始网址可以使用批量网址的字段都在列表
)
2
同时可以观察到需要采集的字段显示在列表页页面
第三步:
那么采集器中的起始URL就可以使用批量URL的操作了:
打开列表页URL源代码,获取源代码中提取内容页URL的字符串:
同时可以看到需要采集的字段也存在于列表页的源码中(在列表页的源码中可以看到td位置对应的值需要采集的字段),则可以直接进入列表页采集
用组合标签获取列表页中所有需要的数据,然后在内容页的采集规则中细分多个标签。
第四步:
处理组合标签,使组合标签中的数据只
数据
,以方便分割标签的提取。
然后在细分标签中使用组合标签,根据td的个数提取出来:比如厂家名称(第一个td中的值)
第五步:
例如电话标签(这是第三个 td 中的值)
每周一采集数据和采集规则的时间为2019年10月30日文件发布后5个工作日内。采集该规则涉及商业版功能,建议用户登录商业版使用该规则。
数据采集资格:优采云采集器/优采云Browser/Touch Genius商业版软件用户(服务期内),如果您不是商业用户或已过了服务期,而且如果您想参加活动,您可以购买新软件或升级更新费用,以便您参加活动!告诉我,双11优采云活动折扣很大!活动将于11月1日开始,详情请访问官网:查看。
如何获取数据:
第一步:扫码添加优采云运营微信公众号,优采云运营助手会拉你进入活动群。
第二步:进群后,添加数据咨询客服。雅的微信账号在服务期内经客服验证为企业用户即可获取。
好了,本期《每周一数数》就到此为止。如果还想获取更多的数据资源和采集器规则,可以在文章下方或者公众号后台留言。小菜会根据大家的意见,在下一期中挑选出数据。哦主题!