网页数据抓取软件(网页抓取工具优采云采集器自有应对方案——数据处理(一))
优采云 发布时间: 2022-02-05 01:13网页数据抓取软件(网页抓取工具优采云采集器自有应对方案——数据处理(一))
网页抓取工具的数据预处理本文关键词:预处理、爬取、网页、工具、数据
网页抓取工具的数据预处理本文介绍:网页抓取工具的数据预处理提取的数据不能直接使用?文件还没下载?格式等不符合要求?别担心,网络抓取工具 优采云采集器 有自己的解决方案——数据处理。网络爬虫的数据处理功能包括三个部分,即内容处理、文件下载和内容过滤。下面依次为大家介绍:1、内容处理:替换从内容页面提取的数据,过滤标签,
网页抓取工具的数据预处理本文内容:
网络爬虫的数据预处理
提取出来的数据不能直接使用吗?文件还没下载?格式等不符合要求?别担心,网络抓取工具 优采云采集器 有自己的解决方案——数据处理。
网络爬虫的数据处理功能包括三个部分,即内容处理、文件下载和内容过滤。下面依次为大家介绍:
1、内容处理:为了进一步处理从内容页面提取的数据,比如替换、标签过滤、分词等,我们可以同时添加多个操作,但是这里需要注意的是,当有多个操作,按照上面的顺序依次执行,即上一步的结果会作为下一步的参数。
让我们一一介绍:
①提取的内容为空:如果内容不能准确提取或者通过之前的规则提取的内容为空,则选择此项,应用该项后,将通过正则匹配从原页面再次提取。
②内容替换/排除:将采集中的内容替换为字符串。如果需要排除,可以用空字符串替换。功能非常灵活。如下图,可以直接替换内容,也可以用参数等替换字符串(与工具栏中的同义词替换不同)。
③html标签过滤:过滤指定的html标签,比如标签的图片地址。
比如直接图片地址,或者不规则图片源代码,采集器会被视为文件下载。
①将相对地址补全为绝对地址:勾选后将标签采集的相对地址补全为绝对地址。
②下载图片:勾选后下载源代码中标准样式的代码图片。
③检测文件真实地址但不下载:有时采集到达附件的下载地址而不是真实的下载地址,点击后会有跳转。在这种情况下,勾选该选项会显示真实地址采集,但只获取下载地址,不下载。
④检测文件并下载:检查后可以从采集下载任意格式的文件附件。
3、内容过滤:通过设置内容过滤,可以删除部分不符合条件的记录或标记为不接受。内容过滤有以下几种处理方式:
①内容不得收录,内容必须收录:可设置多个词,且必须满足所有条件或满足其中一个条件。
②采集结果不能为空:该功能可以防止某个字段出现空内容。
③采集结果不能重复:该功能可以防止字段内容重复。设置此项前,请确保没有采集数据,或者需要先清除采集数据。
④当内容长度小于(大于、等于、不等于)N时过滤:符号或字母或数字或汉字计为一个。
注意:如果满足以上四项中的一项或多项,可以在采集器的其他设置功能中直接删除这条记录,或者在采集下将该记录标记为不为采集 再次运行任务时。
在网页抓取工具优采云采集器中配备了一系列数据处理的好处是,当我们只需要一个小操作时,就不需要编写插件,生成和编译,并且可以通过一键将数据处理成我们需要的方式。