抓取网页数据工具(原文链接提取的数据还不能直接拿来用？文件还没有被下载？)

优采云发布时间: 2022-01-23 14:09

　　原创链接

　　提取出来的数据不能直接使用吗？文件还没下载？格式等不符合要求？别担心，网络抓取工具优采云采集器有自己的解决方案——数据处理。

　　图片1.png

　　网络爬虫的数据处理功能包括三个部分，即内容处理、文件下载和内容过滤。下面依次为大家介绍：

　　1、内容处理：对从内容页面提取的数据做进一步的处理，比如替换、标签过滤、分词等，我们可以同时添加多个操作，但是这里需要注意的是，当有多个操作，按照上面的顺序依次执行，即上一步的结果会作为下一步的参数。

　　让我们一一介绍：

　　①提取的内容为空：如果通过之前的规则无法准确提取内容或提取的内容为空，则选择此项，应用此项后，将再次使用正则匹配从原创页面中提取。

　　②内容替换/排除：将采集中的内容替换为字符串。如果需要排除，可以用空字符串替换。功能非常灵活。如下图，可以直接替换内容，也可以用参数等替换字符串（与工具栏中的同义词替换不同）。

　　③html标签过滤：过滤指定的html标签，如④字符截取：通过起止字符串截取内容。适用于对提取内容的裁剪调整。

　　⑤纯正则替换：如果某些内容（如单个出现的文本）不能通过一般内容替换来操作，则需要通过强大的正则表达式进行复杂替换。

　　例如，“受欢迎的美式餐厅在这里”，我们将其替换为“美式餐厅”，正则表达式如下：

　　图片2.png

　　⑥数据转换：包括结果由简转繁、结果由繁转简、自动转拼音和时间校正转换，共四个处理。

　　⑦智能提取：包括第一张图片提取、时间智能提取、邮箱智能提取、手机号码智能提取、电话号码智能提取。

　　⑧高级功能：包括自动总结、自动分词、自动分类、Http请求、字符编码转换、同义词替换、空内容默认值、内容加前后缀、随机插入、运行C#代码、批量替换内容、统计标签字符串A长度等一系列函数。

　　⑨完成单个URL：将当前内容完成为一个URL。

　　2、文件下载：可以自动检测和下载文件，可以设置下载路径和文件名样式。

　　注：文件下载中所指的下载图片为源码中的标准样式

　　标签的图片网址。

　　比如直接图片地址，或者不规则图片源代码，采集器会被视为文件下载。

　　①将相对地址补全为绝对地址：勾选后将标签采集的相对地址补全为绝对地址。

　　②下载图片：经过检查，源代码中的标准样式

　　将下载代码图像。

　　③检测文件真实地址但不下载：有时采集到达附件的下载地址而不是真实的下载地址，点击后会有跳转。在这种情况下，勾选该选项会显示真实地址采集，但只获取下载地址，不下载。

　　④检测文件并下载：检查后可以从采集下载任意格式的文件附件。

　　3、内容过滤：通过设置内容过滤，可以删除部分不符合条件的记录或标记为不接受。内容过滤有以下几种处理方式：

　　①内容不得收录，内容必须收录：可设置多个词，且必须满足所有条件或满足其中一个条件。

　　②采集结果不能为空：该功能可以防止某个字段出现空内容。

　　③采集结果不能重复：该功能可以防止字段内容重复。设置此项前，请确保没有采集数据，或者需要先清除采集数据。

　　④当内容长度小于（大于、等于、不等于）N时过滤：符号或字母或数字或汉字计为一个。

　　注意：如果满足以上四项中的一项或多项，可以在采集器的其他设置功能中直接删除这条记录，或者在采集下将该记录标记为不为采集再次运行任务时。

　　在网络爬虫工具优采云采集器中配备了一系列数据处理的好处是，当我们只需要一个小操作时，就不需要编写插件，生成和编译，并且可以通过一键将数据处理成我们需要的方式。

0

2022-01-23

抓取网页数据工具

0 个评论

要回复文章请先登录或注册