内容采集器(从内容页提取的数据还不能直接拿来用??)
优采云 发布时间: 2021-11-16 09:07内容采集器(从内容页提取的数据还不能直接拿来用??)
什么?!!!从内容页中提取的数据不能直接使用吗?? ? 文件还没有下载?? ?
别担心,优采云采集器怎么会允许不完美存在呢?这时候就该出现数据处理了~
数据处理功能包括内容处理、文件下载和内容过滤三部分。
1、内容处理:替换从内容页面中提取的数据,标签过滤,分词等进一步处理,我们可以同时添加多个操作,但是这里需要注意的是,如果有多个操作,按照上面的顺序执行,也就是将上一步的结果作为下一步的参数。
下面我们一一介绍:
①提取内容为空:如果通过前面的规则无法准确提取提取内容或提取内容为空,请选择此选项。此应用程序后,将使用正则匹配从原创页面中再次提取。
②内容替换/排除:用字符串替换采集的内容。如果需要排除,请用空字符串替换。功能非常灵活。如下图,可以直接替换内容,也可以用参数替换字符串(不同于工具栏中的同义词替换)。
③html标签过滤:过滤指定的html标签,如
④ 字符截取:通过首尾字符串截取内容。适用于截取和调整提取的内容。
⑤纯替换:如果某些内容(如单次出现的文本)无法通过一般的内容替换操作,则需要通过强大的正则表达式进行复杂的替换。
例如,“受欢迎的美国餐馆在这里”,我们将其替换为“美国餐馆”,正则表达式如下:
⑥数据转换:包括结果简体转繁、结果繁体转简体、自动转拼音和时间校正转换,共四项处理。
⑦智能提取:包括第一张图片提取、智能提取时间、邮箱智能提取、手机号码智能提取、电话号码智能提取。
⑧高级功能:包括自动汇总、自动分词、自动分类、Http请求、字符编码转换、同义词替换、空内容默认值、内容加前缀和后缀、随机插入、运行C#代码、批量内容替换、统计标签字符串A长度等一系列函数。
⑨补全单个网址:将当前内容补全为一个网址。
2、文件下载:可以自动检测下载文件,可以设置下载路径和文件名样式。
注:文件下载中所指的下载图片为源代码中的标准样式
标签的图片地址。
例如,如果是直接的图片地址/logo.gif,或者不规则的图片源代码,采集器将被视为文件下载。
①将相对地址补全为绝对地址:勾选后,标签采集的相对地址补全为绝对地址。
②下载图片:经核对,源码收录标准样式
将下载代码图像。
③检测文件真实地址但不下载:有时采集到达附件下载地址而不是真实下载地址。点击之后,会有一个跳转。在这种情况下,如果勾选此选项,将显示真实地址采集,但不会仅下载下载地址。
④检测文件并下载:勾选后可以从采集下载任意格式的文件附件。
3、内容过滤:一些不符合条件的记录可以通过设置内容过滤来删除或标记为不接受。有几种方法可以处理内容过滤:
①内容不得收录,内容必须收录:可设置多个词,且必须满足所有条件或满足其中一个条件即可。
②采集 结果不能为空:该功能可以防止某个字段出现空内容。
③采集 结果不能重复:该功能可以防止某个字段出现重复的内容。设置此项前请确保没有采集数据,否则需要先清除采集数据。
④内容长度小于(大于、等于、不等于)时过滤 N:符号或字母或数字或汉字算一个。
注意:如果满足以上四项中的任何一项或多项,您可以在采集器的其他设置功能中直接删除该记录,或者将该记录标记为不在采集采集将在下次运行任务时重复。
在优采云采集器中配备一系列数据处理的好处是,当我们只需要做一个小操作时,我们不需要编写插件、生成和编译,但是点进去一步就可以把数据处理成我们需要的了。
学习数据处理,你离优采云采集器大神又近了一步!
回顾以前的教程
☞【教程 step.1】入门优采云采集器
☞【教程 step.2】优采云采集器网址采集
☞[教程 step.3]优采云采集器采集的内容
☞【教程 step.4】优采云采集器上线
☞【教程 step.5】秒懂POST获取URL&抓包
☞【教程 step.6】看完这篇文章,【参数N】不会让你头晕
☞ [教程 step.7] 如何分页内容采集?
☞【教程step.8】遇到这种反爬虫网站怎么办?
☞[教程 step.9] 如果你不明白规律,就写下这些表达式
>>>>必要的提示
优采云采集器用户手册| 优采云 浏览器使用手册
>>>>软件咨询
官网| 价格| 特点| 常问问题
/r/_3VDW1TENwlIrRA49yDp(自动识别二维码)