网页文章采集器(可视化自定义采集器采集流程及方法步骤功能介绍)

优采云 发布时间: 2022-01-03 10:20

  网页文章采集器(可视化自定义采集器采集流程及方法步骤功能介绍)

  优采云采集器是网站运营商的实用网络数据采集工具。软件提供直观的操作界面和强大易用的采集功能,支持智能监控和采集指定类型的数据,软件具有可视化的自定义采集流程,具有问答指导,还支持批量采集数据,采集后,一键导出发布。有需要的欢迎下载。

  优采云采集器功能

  1、可视化定制采集流程

  全程问答指导,可视化操作,自定义采集流程

  自动记录和模拟网页操作顺序

  高级设置满足更多采集需求

  2、点击提取网页数据

  鼠标点击选择要抓取的网页内容,操作简单

  可以选择提取文本、链接、属性、html标签等

  3、运行批处理采集数据

  软件自动批量采集

  按照采集流程和提取规则

  快速稳定,实时显示采集速度和进程

  可以切换软件后台运行,不打扰前台工作

  4、导出并发布采集

  的数据

  采集数据自动制表,字段可自由配置

  支持数据导出到Excel等本地文件

  并一键发布到cms网站/database/微信公众号等媒体

  使用教程

  自定义采集百度搜索结果数据方法

  第一步:创建采集任务

  1)启动优采云采集器,进入主界面,选择自定义采集,点击创建任务按钮,创建一个“自定义采集任务”

  2)输入百度搜索的网址,包括三种方式

  1、手动输入:直接在输入框中输入网址,如果有多个网址,需要用换行符分隔

  2、 点击读取文件:用户选择一个文件来存储 URL。文件中可以有多个URL地址,地址之间需要用换行符分隔。

  3、批量添加方式:通过添加和调整地址参数生成多个常规地址

  第 2 步:自定义采集流程

  1) 点击创建后,会自动打开第一个网址,进入自定义设置页面。默认情况下,已经创建了开始、打开网页和结束的进程块。底部的模板区域用于拖放到画布上生成新的流程块;点击打开网页中的属性按钮修改打开的网址

  2)添加输入文本流块:将底部模板区域中的输入文本块拖到打开的网页块附近。出现阴影区域时松开鼠标,此时会自动连接,添加完成

  3)生成一个完整的流程图:按照上面添加输入文本流程块的拖放流程添加一个新块:如下图所示:

  关键步骤块设置介绍

  第2步:定时等待用于等待之前打开的网页完成

  第三步:点击输入框的Xpath属性按钮,点击属性菜单中的图标选择网页上的输入框,点击输入文本属性按钮,在菜单中输入要搜索的文本.

  第四步:用于设置点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的点击图标,然后点击网页上的百度按钮。

  第五步:用于设置加载下一个列表页面的周期。在循环块内的循环条件块中设置详细条件。单击此处的操作按钮选择单个元素,然后在属性菜单中单击该元素的xpath 属性按钮,然后在网页中单击下一页按钮,如上。循环次数属性按钮可以默认为0,即下一页没有点击次数限制。

  第六步:用于设置循环提取列表页面中的数据。在循环块内部的循环条件块中设置详细条件,点击这里的操作按钮,选择未固定元素列表,然后在属性菜单中点击该元素的xpath属性按钮,然后在网页中点击两次提取第一个块和第二个元素。循环次数属性按钮可以默认为0,即不限制列表中采集的字段数。

  第七步:用于执行点击下一页按钮、点击元素xpath属性按钮、选择当前循环中元素的xpath选项的操作。

  第八步:同样用于设置网页加载的等待时间。

  第九步:用于设置要从列表页面中提取的字段规则,点击属性按钮中的循环中使用元素按钮,选择循环中使用元素的选项。单击元素模板属性按钮,然后单击字段表中的添加和减去以添加和删除字段。添加字段,使用点击操作,即点击加号,然后将鼠标移动到网页元素上点击选择。

  4)点击开始采集开始采集

  第三步:数据采集并导出

  1)采集任务正在运行

  2)采集完成后,选择“导出数据”将所有数据导出到本地文件

  3)选择“导出方式”导出采集好的数据,这里可以选择excel作为导出格式

  4)采集数据导出后如下图

  常见问题

  如何采集58个二手房信息数据?

  第一步:创建采集任务

  1)打开优采云采集器,进入主界面,点击创建任务按钮创建“向导采集任务”

  2)输入58二手房网址网站,包括三种方式

  1、手动输入:直接在输入框中输入网址,如果有多个网址,需要用换行符分隔

  2、 点击读取文件:用户选择一个文件来存储 URL。文件中可以有多个URL地址,地址之间需要用换行符分隔。

  3、批量添加方式:通过添加和调整地址参数生成多个常规地址

  第 2 步:自定义采集流程

  1)点击创建自动打开第一个网址进入向导设置,点击下一步进入列表页面

  2)在列表块中选择你想要采集的元素所在的块,在块中点击你要提取的元素

  3)点击列表中的另一块,可以自动选择整个列表,点击下一步

  4)选择下一页按钮,选择下一页的选项,然后点击页面上的下一页按钮填写第一个输入框,第二个数据框可以同时调整任务正在运行。单击 Next 页面按钮的数量。理论上,次数越多,采集得到的数据结果就会越多。点击下一步

  5) 在焦点框中单击以选择采集 的字段。来自采集的结果会显示在下面,并且可以为每个字段的结果设置提取方法。双击要编辑的字段。点击下一步。

  6)选择是否进入详情页,进入详情页需要点击焦点框点击元素进入详情页,输入框会得到该元素的xpath,点击下一步

  7)在详情页可以继续点击添加字段,这里添加二手房价格、*房*康*厅、房屋面积、楼层数、小区位置,点击保存或保存并运行

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线