内容采集器(有些提取器删除标签的方法和区分方法有哪些? )
优采云 发布时间: 2021-10-19 09:10内容采集器(有些提取器删除标签的方法和区分方法有哪些?
)
有些网站会在正文前后添加一些宣传信息。如果详情页提取器无法将信息从采集的正文中分离出来(一般检查Html的content字段),则需要通过字段数据处理将其删除。
如果这些额外信息只是图片或链接,有一种快速删除它们的方法。点击此处了解详情:
如果这些冗余信息中间夹杂着文字,则需要使用'HTML标签删除'功能。
1. 设置详情页提取器中对应字段采集的内容。下图为content字段采集的内容,其中收录不可分割的冗余信息;
2.点击测试采集==》点击源码==》找到冗余信息的标签代码;
3.双击采集的字段或字段右侧的绿色设置按钮进入数据处理==》进入“高级删除和处理”栏;
4. 填写需要删除的标签位置和数量,点击保存删除;(这里可以选择的标签为常用标签)
5. 部分网页使用div标签来区分正文内容和次要信息,所以必须设置保留的div标签,才能删除div标签中的内容;
6.对于无标签文本,可以使用字符替换功能,采集数据处理:字符替换;
除了以上方法,优采云采集平台还可以对已经采集的数据批量删除html标签(这里支持所有标签类型),工具是在“结果数据和发布”栏中;