测评:如何只采集列表页面的内容

优采云 发布时间: 2020-09-01 21:09

  如何仅采集列表页面的内容

  有时候,我们只需要采集某些列表页面的内容即可. 例如,我们想要采集在百度上某个关键字的搜索结果,而我们只需要标题,URL或简介之类的内容. 或者我们认为采集是一条短信列,其列表页面收录我们所需的短信内容.

  一个

  如果我们希望列表中的每个项目都单独发布,请按以下方式配置采集规则:

  1. 根据正常的采集配置列表URL,自动列表,列表区域中的列表设置;

  2. 列出分析规则. 如果采集的内容不需要URL,则使用文章地址标记任何采集字符串;如果除了标题和URL之外还需要采集其他内容,例如,对于简介,我们可以使用缩略图标记来采集;

  

  3,文章 URL合成,只需在此处填写快速访问URL,本地站点的URL也可以;

  

  4.1. 在ET3中,可以使用指定的模式来调用列表数据;

  

  4.2. 在ET2中,可以使用数据排序将列表数据分配给数据项. 数据排序中有一个[列表数据]标记,您可以引用标题,文章 URL,缩略图和其他从列表中获得的数据. 因此,我们可以在其相应的数据排序中创建新的数据项,引号标题,文章 URL,缩略图和其他数据,并将它们分解或合并为我们要发布的内容. 以下三张图片演示了如何为文本数据项分配缩略图数据.

  

  (1,在文本数据项的采集规则中填写任何文本)

  

  (2,在文本的数据组织中使用列表数据标记)

  

  (3. 使用参数标签或变量标签将文本数据项的内容替换为列表的缩略图内容)

  5. 其他与一般采集规则相同;

  6. 在发布规则中,应注意数据项名称与发布参数名称之间的正确对应;

  

  通过这种方式,列表中的内容可以采集逐一发布.

  第二,

  如果我们需要一次发布采集的内容,请按以下方式配置采集规则:

  1. 列出网址,只需填写访问速度快的网页,或填写本地txt文件地址即可;

  2,自动列表,无需设置列表区域;

  3. 列表分析. 为列表URL中填写的地址内容设置一个简单规则. 要使用文章地址标签,文章地址标签的分析结果可以是任何内容,因为它不会被使用. 但是此分析规则必须有效,最好文章地址标签仅匹配一个结果(如果有多个结果,则可以在采集基本配置中将采集项的数量设置为1);

  4,文章 URL合成,在此处采集填写您想要的列表页面URL;

  5. 使用文本数据项和其他数据项采集列表中的每个项,您可以全部收录它们,也可以选择匹配多个项目;

  6. 如果有多个列表URL,则可以使用正文页面设置采集;

  7. 其他配置与一般采集规则相同;

  完成此配置后,整个列表将作为文章文章发布.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线