自动采集文章内容(监控采集原理图的定制数据采集方案介绍及解决办法!)
优采云 发布时间: 2021-10-29 04:19自动采集文章内容(监控采集原理图的定制数据采集方案介绍及解决办法!)
如果您需要监控采集招标采购信息;或需要关注采集财经新闻;或需要监控采集招募和招生内容;或需要监控采集舆情内容。请继续往下看。目标是及时发现网站的更新内容,并在很短的时间内自动完成采集的数据。
由于每个网站内容格式不同,需要有针对性的定制化数据采集方案。
1、实时监控更新及采集内容原理:先在监控主机上运行网站信息监控软件,添加需要监控的URL,即可监控网站 主页或专栏 列表页面是主要页面。当发现有更新时,立即将更新后的新闻标题和链接发送到采集主机。采集主机收到新闻链接后,会自动用木头浏览器打开网页,然后将采集新闻标题和正文内容保存到数据库或导出Excel文件,或填写并提交给其他系统。其中,监控主机和采集主机可以部署在不同的计算机上,也可以部署在同一台计算机上,通过网络接口实现数据传输。
监控采集*敏*感*词*
2、 先在监控主机上部署网站信息监控软件,添加需要监控的URL,选择监控网站首页或栏目页。只要可以直接监控超链接列表格式的网页,其他特殊格式的页面需要添加相应的监控程序。每个监控网站可以设置不同的监控频率,对实时性要求高的网站可以设置高频监控。多个 URL 和独立线程以各自的频率同时被监控。您也可以按 关键词 过滤无效内容。具体参数设置请参考软件手册和案例教程。
监控 网站 更新
3、 在监控告警选项卡中,勾选“发送链接到外网接口”,并设置接收方的ip地址和端口号,这里是采集主机ip地址127.0.0.1,*敏*感*词*8888端口。当*敏*感*词*到任何网站更新时,会发送更新的内容和链接。
发送更新链接
4、在采集主机上打开一个木制浏览器,选择“自动控制”菜单,打开“外部接口”。在弹出的对外接口窗口中,设置*敏*感*词*端口号为8888,设置为接收到数据时执行指定的自控工程文件。如果同时接收到多条数据,软件还可以按照设定的时间间隔依次处理每条数据。勾选“程序启动时自动开始*敏*感*词*”,这样只要启动浏览器就可以在不打开外部界面窗口的情况下接收数据。
接收新链接
5、打开浏览器的项目管理器,创建一个自动控制项目。首先新建一个打开网页的步骤,在URL输入控件中点击鼠标右键,选择外部变量@link,它是从监控主机接收到的数据中的链接参数。执行项目时会自动打开此内容 URL。
打开链接网址
6、创建元素监控步骤,监控内容页面的标题。通过标题内容,可以判断该内容来自哪个网站,然后跳转执行相应的数据采集步骤。这相当于编程中的多个条件语句。其中,要选择跳转步骤,需要先完成本文第7步,然后返回修改。
判断来源网站
7、创建信息抓取步骤,从网页抓取标题和正文内容。会以变量的形式保存在软件中。按照相同的方法为每个网站创建数据捕获步骤和捕获内容参数。在这里,您还可以增加对信息内容的分析和过滤,确定不必要的无关内容,终止采集并保存。
页面数据采集
8、如果要将采集的内容保存到数据库中,可以新建“执行SQL”步骤,设置数据库连接参数,支持mssql、mysql、oracle、sqlite等数据库. 输入insert拼接sql语句,通过鼠标右键菜单将title和body变量插入到sql语句中。项目执行时,变量被替换,内容直接保存到数据库中。
保存到数据库
9、如何将采集的数据保存到Excel电子表格文件中,创建“保存数据”步骤,选择保存为Excel格式,输入保存路径和文件名,点击设置内容按钮,可以选择保存变量,这里选择标题和正文。
保存到 Excel
10、 如果需要添加采集的内容,则填写表单添加到其他系统,新建页面打开步骤,添加系统的URL(此处省略登录步骤),并打开系统添加数据表单。
打开添加数据页面
11、创建填写内容的步骤,在表单对应的输入框中填写内容。首先获取输入框元素,填写内容框,点击鼠标右键选择需要输入的变量。
自动填写表格
12、 填写完表格后,再增加一个点击提交按钮的步骤,这样采集的内容就会被添加到新系统中。
提交表格
从更新监控数据到将采集数据保存到数据库或添加到其他系统,整个过程可以在很短的时间内自动快速完成,无需值守。并且可以把监控和采集软件在后台运行,不影响电脑正常使用做其他任务。返回搜狐查看更多