网页抓取工具：一个简单的文章采集示例 (1)

优采云发布时间: 2020-04-18 09:53

　　网页抓取工具：一个简单的文章采集示例通过采集网页抓取工具列车采集器官网的 faq 为例来说明采集器采集的原理和过程。本例以演示地址网站文章采集软件，以列车采集器 V9 为工具进行示例说明。（1）新建个采集规则选择一个分组上右击，选择“新建任务”，如下图：（2）添加起始网址在这里我们须要采集 5 页数据。分析网址变量规律第一页地址：第二页地址：第三页地址：由此我们可以推断出 p=后的数字就是分页的意思，我们用[地址参数]表示：所以设置如下:地址格式：把变化的分页数字用[地址参数]表示。数字变化：从 1 开始文章采集，即第一页；每次递增 1，即每次分页的变化规律数字；共 5 项，即一共采集 5 页。预览：采集器会根据前面设置的生成一部分网址，让你来判读添加的是否正确。然后确定即可（3）[常规模式]获取内容网址常规模式：该模式默认抓取一级地址，即从起始页源代码中获取到内容页 A 链接。在这里给你们演示用自动获取地址链接 +设置区域的方式来获取。查看页面源代码找到文章地址所在的区域：设置如下：注：更详尽的剖析说明可以参考本指南：操作指南 > 软件操作 > 网址采集规则 > 获取内容网址点击网址采集测试，看看测试疗效（3）内容采集网址以为例讲解标签采集注：更详尽的剖析说明可以下载参考官网的用户指南。

　　操作指南 > 软件操作 > 内容采集规则 > 标签编辑我们首先查看它的页面源代码网站文章采集软件，找到我们“标题”所在位置的代码：<title>导入 Excle 是跳出对话框~打开 Excle 出错 - 火车采集器帮助中心</title>分析得出：开头字符串为：<title> 结尾字符串为：</title> 数据处理——内容替换/排除：需要把- 火车采集器帮助中心给替换为空内容标签的设置原理也是类似的，找到内容所在源码中的位置剖析得出：开头字符串为：<div id="cmsContent"> 结尾字符串为：</div> 数据处理——HTML 标签排除：把不需要的 A 链接等过滤再设置个“来源”字段这样一个简单的文章采集规则就做好了，使用通用的网页抓取工具列车采集器并按照这个示例的步骤就可以进行其它类型数据采集的扩充啦。

0

2020-04-18

网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取工具：一个简单的文章采集示例 (1)

0 个评论

发起人

AI时代内容工厂

网页抓取工具：一个简单的文章采集示例 (1)

0 个评论

发起人

相关问题