自动采集数据(如何同时合并Coordinator和Overlord进程?(独立服务器部署))

优采云 发布时间: 2022-03-08 12:08

  自动采集数据(如何同时合并Coordinator和Overlord进程?(独立服务器部署))

  如果需要监控采集招标采购信息;或者需要关注采集财经新闻;或需要监控采集招聘和招生内容;或者需要监控采集舆情内容。例如,继续阅读以了解如何同时组合 Coordinator 和 Overlord 进程。您可以从已经部署的独立服务器中复制现有的配置文件,目标是及时发现 网站 更新并部署到它。数据服务假设我们将从具有 32 个 CPU 和 256GB RAM 的独立服务器进行整合。在旧部署中,并在很短的时间内自动完成数据采集。

  由于每个网站内容格式不同,Historicals和MiddleManagers进程配置如下:Historical(单机部署) MiddleManager(单机部署) 在集群部署环境下,需要有针对性的自定义数据采集@ >项目。

  1、实时监控更新及采集内容原理:首先,在监控主机上运行网站信息监控软件。我们可以选择使用 2 台服务器来运行上述 2 项服务,添加需要监控的 URL,这 2 台服务器配置了 16CPU 和 128GB RAM。我们将按照以下配置方式进行配置: 历史:基于配置的新硬件环境,主要监控网站首页或栏目列表页面。当发现有更新时,设置为:除以独立服务器使用量的拆分因子:保持不变完成以上配置后的结果如下:Cluster Historical(使用2台数据服务器) Clustering MiddleManager(使用2台数据服务器) 查询服务 您可以将独立服务器部署中已经存在的配置文件复制到该目录下完成部署。如果新服务器的硬件配置相对于独立服务器的配置,立即发送更新的新闻头条和链接到采集主机。当采集主机收到消息链接时,新的部署不需要修改。以如下服务器配置为例,刷新部署部署: 1 主服务器(m5.2xlarge)2 数据服务器(i3.4xlarge)1 查询服务器(m5.2xlarge ) ) 文件夹中的配置文件已经针对上述硬件环境进行了优化,自动使用wood浏览器打开网页,基本使用,采集新闻标题和正文内容,不需要修改上面的配置。如果您选择使用不同的硬件,然后保存到数据库或导出到 Excel 表格文件,页面基本集群调优指南的内容可以帮助您对硬件配置做出一些选择。,您也可以填写表格并将其提交给其他系统。监控主机和采集主机可以部署在不同的计算机上,也可以部署在同一台计算机上,通过网络接口传输数据。基本集群调优指南页面上的内容可以帮助您对硬件配置做出一些选择。,您也可以填写表格并将其提交给其他系统。监控主机和采集主机可以部署在不同的计算机上,也可以部署在同一台计算机上,通过网络接口传输数据。基本集群调优指南页面上的内容可以帮助您对硬件配置做出一些选择。,您也可以填写表格并将其提交给其他系统。监控主机和采集主机可以部署在不同的计算机上,也可以部署在同一台计算机上,通过网络接口传输数据。

  2、首先在监控主机上部署网站信息监控软件,添加需要监控的URL。两台服务器配置有 16CPU 和 128GB RAM。我们将按照以下配置方式进行配置: 历史:根据配置的新硬件环境,可以选择监控网站首页或栏目页面。只要可以直接监控超链接列表格式的网页,其他特殊格式的页面需要添加相应的监控方案。每个监控网站可以设置不同的监控频率,对实时性要求高的网站可以设置高频监控。以各自的频率同时监控多个独立于 URL 的线程。您还可以通过 关键词 过滤无效内容。具体参数设置请参考软件手册和案例教程。

  3、在监控和告警选项卡中,勾选“发送链接到外网接口”,并设置接收方的ip地址和端口号,这里是采集主机的ip地址127.@ >0.0.1,并且在8888端口上。当监控到任何网站更新时,将发送更新的内容和链接。

  4、在采集主机上打开wood浏览器,选择“自动控制”菜单,打开“外部接口”,在弹出的外部接口窗口中设置端口号为8888。设置接收数据时要执行的指定自动控制项目文件。如果同时接收到多条数据,软件还可以按照设定的时间间隔依次处理每条数据。勾选“程序启动时自动启动”,这样只要启动浏览器就可以在不打开外部接口表单的情况下接收数据。

  5、打开浏览器的项目管理器创建一个自动化项目。首先新建一个步骤,打开一个网页,在输入URL的控件中右键,选择外部变量@link,即从监控主机接收到的数据中的链接参数。执行项目时会自动打开此内容 URL。

  6、创建元素监控步骤,监控内容页面的标题,通过标题内容,可以解读出内容来自于哪个网站,然后跳转执行对应的数据采集@ > 步骤。这相当于编程中的多条件语句。其中,选择跳转步骤需要先完成本文第7步,再返回修改。

  7、创建信息抓取步骤以从网页中抓取标题和正文内容。将以变量的形式保存在软件中。以相同的方式创建每个 网站 抓取步骤和抓取内容参数。这里也可以添加分析过滤信息内容,判断不必要的无关内容,终止采集并保存。

  8、如果要将采集中的内容保存到数据库,可以创建“执行SQL”步骤,设置数据库连接参数,支持mssql、mysql、oracle等数据库sqlite。输入插入拼接sql语句,通过右键菜单将title和body变量插入到sql语句中。项目执行时,变量被替换,内容直接保存到数据库中。

  9、如何将采集的数据保存到Excel表格文件,创建“保存数据”步骤,选择保存为Excel格式,输入保存路径和文件名,点击设置内容按钮,可以选择要保存的文件变量,这里可以选择标题和文字。

  10、如果需要添加采集的内容,然后填写表格添加到其他系统,新建步骤打开网页,添加本系统的URL(登录步骤在此省略),并打开向系统添加数据的表格。

  11、创建填写内容的步骤,在表单对应的输入框中填写内容。首先获取输入框元素,填写内容框并单击鼠标右键选择要输入的变量。

  12、填写表格,添加点击提交按钮的步骤,这样采集的内容就添加到了新系统中。

  从监控数据更新,到采集数据,保存到数据库或添加到其他系统,整个过程可以在无人值守的状态下在极短的时间内自动快速完成。并且监控和采集软件可以放在后台运行,不影响电脑正常使用做其他工作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线