采集网站内容(本文介绍如何采集网站上多关键词的流程图模式?介绍 )
优采云 发布时间: 2021-10-12 23:04采集网站内容(本文介绍如何采集网站上多关键词的流程图模式?介绍
)
本文介绍如何使用优采云采集器的流程图模式,并介绍如何在更多关键词数据上采集网站。
第一步:新建一个采集任务
1、复制官网网址(搜索结果页网址为必填项,不是首页网址)
单击此处了解如何正确输入 URL。
2、新流程图模式采集任务
可以直接在软件上创建采集任务,也可以通过导入规则来创建任务。
单击此处了解如何导入和导出 采集 规则。
第二步:配置采集规则
1、设置多个关键字循环任务
在流程图模式下输入创建新任务的URL后,我们点击搜索框,然后在左上角出现的操作提示框中输入文字为采集。
单击此处了解有关输入文本组件的更多信息。
由于需要输入多个关键词数据,我们选择点击操作框上的批量输入文本按钮。
然后选择单个文本的批量输入。
然后在弹出的文本列表中输入我们需要设置的文本,这里我们输入“设置”、“采集”、“数据”这些关键词。
点击“确定”按钮后,软件会自动生成一个圆形的关键词列表。
然后我们点击页面上的搜索按钮,在操作框中选择“点击该元素一次”按钮,跳转到搜索结果页面。
2、设置提取字段数据
输入多个关键字并设置好循环后,我们设置要提取的字段数据,在网页上点击该字段,在左上角的操作提示框中选择提取所有元素。然后软件会自动识别分页,用户根据软件提示设置分页。
那么我们就可以在此基础上设置采集字段,用户可以根据自己的需要进行设置。
更多详情,请参考以下教程:
如何配置采集字段
3、深入设置采集
如果我们需要采集详情页的数据,可以使用深入采集函数。
更多详情,请参考以下教程:
如何实现深入采集
4、设置详情页数据
详情页的采集与单页类型的采集相同。我们在页面上点击需要采集的数据,然后点击操作提示框中的“从此元素中提取数据”按钮,数据设置可以参考列表页上的设置。
更多详情,请参考以下教程:
如何采集单页类型网页
5、完整的组件图
第三步:设置并启动采集任务
1、开始采集任务
点击“开始采集”按钮,在弹出的启动设置页面中进行一些高级设置,包括“定时启动、防阻塞、自动导出、文件下载、加速引擎、重复数据删除、开发者设置》,本次操作不使用以上功能,直接点击启动按钮启动采集。
单击此处了解有关预定开始时间的更多信息。
单击此处了解有关自动导出的更多信息。
单击此处了解有关如何下载图片的更多信息。
【温馨提示】免费版可以使用非周期性定时采集功能,下载图片功能免费;专业版及以上用户可以使用定时启动功能;旗舰版用户可以使用自动导出功能和加速引擎功能。
2、运行任务提取数据
<p>任务启动后会自动启动采集数据,我们可以从界面直观的看到程序运行过程和采集的运行结果,