自动采集数据(监控网站可以设置不同的监控频率吗?-八维教育)
优采云 发布时间: 2021-12-28 05:05自动采集数据(监控网站可以设置不同的监控频率吗?-八维教育)
如果您需要监控和采集
招标采购信息;或需要监控和采集
财经新闻;或需要监控和采集
招聘和招生内容;或者需要监控和采集
舆情内容的。请继续往下看。目标是及时发现网站的更新内容,并在极短的时间内完成自动数据采集。
由于每个网站的内容格式不同,因此需要定制的数据采集
计划。
1、 实时监控更新内容采集原理:首先在监控主机上运行网站信息监控软件,添加需要监控的网址,监控网站首页或栏目列表页。当发现有更新时,更新后的新闻标题和链接会立即发送到采集
主机。采集主机收到新闻链接后,会自动使用木头浏览器打开网页,采集新闻标题和正文内容,然后保存到数据库或导出Excel表格文件,或填写表格并提交给其他系统。其中,监控主机和采集主机可以部署在不同的计算机上,也可以部署在同一台计算机上,通过网络接口实现数据传输。
2、 首先在监控主机上部署网站信息监控软件,添加需要监控的网址,可以选择监控网站首页或栏目页面。只要可以直接监控超链接列表格式的网页,其他特殊格式的页面需要添加相应的监控程序。每个监控网站可以设置不同的监控频率,对实时性要求高的网站可以设置高频监控。多个 URL 和独立线程以各自的频率同时被监控。您也可以按关键词 过滤无效内容。具体参数设置请参考软件手册和案例教程。
3、 在监控告警选项卡中,勾选“发送链接到外网接口”,并设置接收端的ip地址和端口号,这里是采集主机的ip地址127.< @0.0.1,*敏*感*词*8888端口。当*敏*感*词*到任何网站更新时,会发送更新的内容和链接。
4、 在采集主机上打开一个木制浏览器,选择“自动控制”菜单,打开“外部接口”。在弹出的对外接口窗口中,设置*敏*感*词*端口号为8888,设置为接收到数据时执行指定的自控工程文件。如果同时接收到多条数据,软件还可以按照设定的时间间隔依次处理每条数据。勾选“程序启动时自动开始*敏*感*词*”,这样只要启动浏览器就可以在不打开外部界面窗口的情况下接收数据。
5、打开浏览器的项目管理器,创建一个自动控制项目。首先新建一个打开网页的步骤,在URL输入控件中点击鼠标右键,选择外部变量@link,它是从监控主机接收到的数据中的链接参数。执行项目时会自动打开此内容 URL。
6、 创建元素监控步骤,监控内容页面的标题。通过标题内容可以判断该内容来自哪个网站,然后跳转执行相应的数据采集步骤。这相当于编程中的多个条件语句。选择跳转步骤需要先完成本文第7步,然后返回修改。
7、创建信息抓取步骤,从网页抓取标题和正文内容。会以变量的形式保存在软件中。按照相同的方法为每个网站创建数据捕获步骤和内容参数。在这里,您还可以增加对信息内容的分析和过滤,确定不必要的无关内容,终止采集
和存储。
8、 如果要将采集到的内容保存到数据库中,可以新建“执行SQL”步骤,设置数据库连接参数,支持mssql、mysql、oracle、sqlite等数据库。输入插入拼接sql语句,通过鼠标右键菜单将title和body变量插入到sql语句中。项目执行时,变量被替换,内容直接保存到数据库中。
9、如何将采集到的数据保存为Excel电子表格文件,创建“保存数据”步骤,选择保存为Excel格式,输入保存路径和文件名,点击设置内容按钮,可以选择需要保存的变量,这里选择title和body就可以了。
10、 如果需要添加采集的内容,填写表单添加到其他系统,新建一个步骤打开网页,添加本系统的URL(这里省略登录步骤) ,并打开系统添加数据表单。
11、 创建填写内容的步骤,在表单对应的输入框中填写内容。首先获取输入框元素,填写内容框,点击鼠标右键选择需要输入的变量。
12、 填写完表格后,再增加一个点击提交按钮的步骤,这样采集
的内容就会被添加到新系统中。
从更新监控数据到采集数据、保存到数据库或添加到其他系统,整个过程可以在很短的时间内自动快速完成,无需值守。并且可以将监控采集软件在后台运行,不影响电脑正常使用其他任务。