抓取网页数据工具(原文链接提取的数据还不能直接拿来用?文件还没有被下载?)

优采云 发布时间: 2022-01-23 14:09

  抓取网页数据工具(原文链接提取的数据还不能直接拿来用?文件还没有被下载?)

  原创链接

  提取出来的数据不能直接使用吗?文件还没下载?格式等不符合要求?别担心,网络抓取工具 优采云采集器 有自己的解决方案——数据处理。

  图片1.png

  网络爬虫的数据处理功能包括三个部分,即内容处理、文件下载和内容过滤。下面依次为大家介绍:

  1、内容处理:对从内容页面提取的数据做进一步的处理,比如替换、标签过滤、分词等,我们可以同时添加多个操作,但是这里需要注意的是,当有多个操作,按照上面的顺序依次执行,即上一步的结果会作为下一步的参数。

  让我们一一介绍:

  ①提取的内容为空:如果通过之前的规则无法准确提取内容或提取的内容为空,则选择此项,应用此项后,将再次使用正则匹配从原创页面中提取。

  ②内容替换/排除:将采集中的内容替换为字符串。如果需要排除,可以用空字符串替换。功能非常灵活。如下图,可以直接替换内容,也可以用参数等替换字符串(与工具栏中的同义词替换不同)。

  ③html标签过滤:过滤指定的html标签,如④字符截取:通过起止字符串截取内容。适用于对提取内容的裁剪调整。

  ⑤纯正则替换:如果某些内容(如单个出现的文本)不能通过一般内容替换来操作,则需要通过强大的正则表达式进行复杂替换。

  例如,“受欢迎的美式餐厅在这里”,我们将其替换为“美式餐厅”,正则表达式如下:

  图片2.png

  ⑥数据转换:包括结果由简转繁、结果由繁转简、自动转拼音和时间校正转换,共四个处理。

  ⑦智能提取:包括第一张图片提取、时间智能提取、邮箱智能提取、手机号码智能提取、电话号码智能提取。

  ⑧高级功能:包括自动总结、自动分词、自动分类、Http请求、字符编码转换、同义词替换、空内容默认值、内容加前后缀、随机插入、运行C#代码、批量替换内容、统计标签字符串A长度等一系列函数。

  ⑨完成单个URL:将当前内容完成为一个URL。

  2、文件下载:可以自动检测和下载文件,可以设置下载路径和文件名样式。

  注:文件下载中所指的下载图片为源码中的标准样式

  

  标签的图片网址。

  比如直接图片地址,或者不规则图片源代码,采集器会被视为文件下载。

  ①将相对地址补全为绝对地址:勾选后将标签采集的相对地址补全为绝对地址。

  ②下载图片:经过检查,源代码中的标准样式

  

  将下载代码图像。

  ③检测文件真实地址但不下载:有时采集到达附件的下载地址而不是真实的下载地址,点击后会有跳转。在这种情况下,勾选该选项会显示真实地址采集,但只获取下载地址,不下载。

  ④检测文件并下载:检查后可以从采集下载任意格式的文件附件。

  3、内容过滤:通过设置内容过滤,可以删除部分不符合条件的记录或标记为不接受。内容过滤有以下几种处理方式:

  ①内容不得收录,内容必须收录:可设置多个词,且必须满足所有条件或满足其中一个条件。

  ②采集结果不能为空:该功能可以防止某个字段出现空内容。

  ③采集结果不能重复:该功能可以防止字段内容重复。设置此项前,请确保没有采集数据,或者需要先清除采集数据。

  ④当内容长度小于(大于、等于、不等于)N时过滤:符号或字母或数字或汉字计为一个。

  注意:如果满足以上四项中的一项或多项,可以在采集器的其他设置功能中直接删除这条记录,或者在采集下将该记录标记为不为采集 再次运行任务时。

  在网络爬虫工具优采云采集器中配备了一系列数据处理的好处是,当我们只需要一个小操作时,就不需要编写插件,生成和编译,并且可以通过一键将数据处理成我们需要的方式。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线