内容采集器(有些提取器删除标签的方法和区分方法有哪些? )

优采云 发布时间: 2021-10-19 09:10

  内容采集器(有些提取器删除标签的方法和区分方法有哪些?

)

  有些网站会在正文前后添加一些宣传信息。如果详情页提取器无法将信息从采集的正文中分离出来(一般检查Html的content字段),则需要通过字段数据处理将其删除。

  如果这些额外信息只是图片或链接,有一种快速删除它们的方法。点击此处了解详情:

  如果这些冗余信息中间夹杂着文字,则需要使用'HTML标签删除'功能。

  1. 设置详情页提取器中对应字段采集的内容。下图为content字段采集的内容,其中收录不可分割的冗余信息;

  

  2.点击测试采集==》点击源码==》找到冗余信息的标签代码;

  

  

  3.双击采集的字段或字段右侧的绿色设置按钮进入数据处理==》进入“高级删除和处理”栏;

  

  

  4. 填写需要删除的标签位置和数量,点击保存删除;(这里可以选择的标签为常用标签)

  

  5. 部分网页使用div标签来区分正文内容和次要信息,所以必须设置保留的div标签,才能删除div标签中的内容;

  

  6.对于无标签文本,可以使用字符替换功能,采集数据处理:字符替换;

  除了以上方法,优采云采集平台还可以对已经采集的数据批量删除html标签(这里支持所有标签类型),工具是在“结果数据和发布”栏中;

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线