网页抓取数据(提取的数据还不能直接拿来用？文件还没有被下载？)

优采云发布时间: 2021-11-29 13:08

　　提取出来的数据不能直接使用吗？文件还没有下载？格式等还达不到要求？不用担心，网页抓取工具优采云采集器有自己的解决方案-数据处理。

　　网络爬虫的数据处理功能包括内容处理、文件下载和内容过滤三部分。让我依次为您介绍：

　　1、内容处理：对内容页面中提取的数据进行进一步的处理，例如替换、标签过滤、分词等，我们可以同时添加多个操作，但是这里需要注意的是，当有多个操作，按照上面的顺序执行，也就是将上一步的结果作为下一步的参数。

　　下面我们一一介绍：

　　①提取内容为空：如果通过前面的规则无法准确提取提取内容或提取内容为空，请选择此选项。此应用程序后，将使用正则匹配从原创页面中再次提取。

　　②内容替换/排除：用字符串替换采集的内容。如果需要排除，请用空字符串替换。功能非常灵活。如下图，可以直接替换内容，也可以用参数替换字符串（不同于工具栏中的同义词替换）。

　　③html标签过滤：过滤指定的html标签，如

　　④ 字符截取：通过首尾字符串截取内容。适用于截取和调整提取的内容。

　　⑤纯替换：如果某些内容（如单次出现的文本）无法通过一般的内容替换操作，则需要通过强大的正则表达式进行复杂的替换。

　　例如，“受欢迎的美国餐馆在这里”，我们将其替换为“美国餐馆”，正则表达式如下：

　　⑥数据转换：包括结果简繁转换、结果繁简转换、自动转拼音和时间校正转换，共四项处理。

　　⑦智能提取：包括第一张图片提取、智能提取时间、邮箱智能提取、手机号码智能提取、电话号码智能提取。

　　⑧高级功能：包括自动汇总、自动分词、自动分类、Http请求、字符编码转换、同义词替换、空内容默认值、内容加前缀和后缀、随机插入、运行C#代码、批量内容替换、统计标签字符串A长度等一系列函数。

　　⑨补全单个网址：将当前内容补全为一个网址。

　　2、文件下载：可以自动检测下载文件，可以设置下载路径和文件名样式。

　　注：文件下载中所指的下载图片为源代码中的标准样式

　　标签的图片地址。

　　例如，如果是直接的图片地址/logo.gif，或者不规则的图片源代码，采集器将被视为文件下载。

　　①将相对地址补全为绝对地址：勾选后，标签采集的相对地址补全为绝对地址。

　　②下载图片：经核对，源码收录标准样式

　　将下载代码图像。

　　③检测文件真实地址但不下载：有时采集到达附件下载地址而不是真实下载地址。点击之后，会有一个跳转。在这种情况下，如果勾选此选项，将显示真实地址采集，但不会仅下载下载地址。

　　④检测文件并下载：勾选后可以从采集下载任意格式的文件附件。

　　3、内容过滤：一些不符合条件的记录可以通过设置内容过滤被删除或标记为不接受。有几种方法可以处理内容过滤：

　　①内容不得收录，内容必须收录：可设置多个词，且必须满足所有条件或满足其中一个条件即可。

　　②采集结果不能为空：该功能可以防止某个字段出现空内容。

　　③采集结果不能重复：该功能可以防止某个字段出现重复的内容。设置此项前请确保没有采集数据，否则需要先清除采集数据。

　　④内容长度小于（大于、等于、不等于）时过滤 N：符号或字母或数字或汉字算一个。

　　注意：如果满足以上四项中的任何一项或多项，您可以在采集器的其他设置功能中直接删除该记录，或者将该记录标记为不在采集采集将在下次运行任务时重复。

　　网页抓取工具优采云采集器配备了一系列数据处理的优势在于，当我们只需要做一个小操作时，无需编写插件、生成和编译它们，并且可以一键将数据处理成我们需要的数据。

0

2021-11-29

网页抓取数据

0 个评论

要回复文章请先登录或注册