c 抓取网页数据(提取的数据还不能直接拿来用?文件还没有被下载?)
优采云 发布时间: 2021-12-27 16:15c 抓取网页数据(提取的数据还不能直接拿来用?文件还没有被下载?)
提取出来的数据不能直接使用吗?文件还没有下载?格式等不符合要求?不用担心,网页抓取工具优采云
有自己的解决方案-数据处理。
网络爬虫的数据处理功能包括内容处理、文件下载和内容过滤三部分。下面我依次给大家介绍一下:
1、内容处理:对内容页面中提取的数据进行进一步的处理,例如替换、标签过滤、分词等,我们可以同时添加多个操作,但是这里需要注意的是,当有多个操作,按照上面的顺序执行,也就是将上一步的结果作为下一步的参数。
下面我们一一介绍:
①提取内容为空:如果通过前面的规则无法准确提取提取内容或提取内容为空,请选择此选项。此应用程序后,将使用正则匹配从原创
页面中再次提取。
②内容替换/排除:将采集到的内容替换为字符串。如果需要排除,请用空字符串替换。功能非常灵活。如下图,可以直接替换内容,也可以用参数替换字符串(不同于工具栏中的同义词替换)。
③html标签过滤:过滤指定的html标签,如
④ 字符截取:通过首尾字符串截取内容。适用于提取内容的截取和调整。
⑤纯替换:如果某些内容(如单次出现的文本)无法通过一般的内容替换进行操作,则需要通过强大的正则表达式进行复杂的替换。
例如“最受欢迎的美国餐馆在这里”,我们将其替换为“美国餐馆”,正则表达式如下:
⑥数据转换:包括结果简繁转换、结果繁简转换、自动转拼音和时间校正转换,共四项处理。
⑦智能提取:包括第一张图片提取、智能提取时间、邮箱智能提取、手机号码智能提取、电话号码智能提取。
⑧高级功能:包括自动摘要、自动分词、自动分类、Http请求、字符编码转换、同义词替换、空内容默认值、内容加前缀和后缀、随机插入、运行C#代码、批量内容替换、统计标签字符串A长度等一系列函数。
⑨补全单个网址:将当前内容补全为一个网址。
2、文件下载:可以自动检测下载文件,可以设置下载路径和文件名样式。
注:文件下载中所指的下载图片为源代码中的标准样式
标签的图片地址。
例如,如果是直接的图片地址或不规则的图片源代码,则采集
者会将其视为文件下载。
①将相对地址补全为绝对地址:勾选后,标签采集的相对地址将补全为绝对地址。
②下载图片:经核对,源码收录
标准样式
将下载代码图像。
③检测文件真实地址但不下载:有时采集的是附件的下载地址,而不是真实的下载地址。点击之后,会有一个跳转。在这种情况下,勾选该选项将采集
真实地址,但只是获取下载地址而不是下载。
④检测文件并下载:勾选后,您可以下载所采集
的任何格式的文件附件。
3、内容过滤:一些不符合条件的记录可以通过设置内容过滤被删除或标记为不接受。有几种方法可以处理内容过滤:
①内容不得收录
,内容必须收录
:可设置多个词,且必须满足所有条件或满足其中一个条件即可。
②采集结果不能为空:该功能可以防止某个字段出现空内容。
③采集结果不能重复:该功能可以防止某个字段出现重复的内容。在设置该选项之前,请确保没有采集
到任何数据,或者您需要先清除采集
到的数据。
④内容长度小于(大于、等于、不等于)时过滤 N:符号或字母或数字或汉字算一个。
注意:如果满足以上四项中的任何一项或多项,您可以直接在采集器的其他设置功能中删除该记录,或者将该记录标记为未采集。下次运行任务时会再次采集
。.
在网页抓取工具优采云
采集
器中进行一系列数据处理的好处在于,当我们只需要做一个小操作时,无需编写插件、生成和编译,而是通过一步点击将数据处理成我们需要的。