本发明涉及WEB数据采集技术领域的技术方案及系统

优采云 发布时间: 2021-03-26 03:20

  本发明涉及WEB数据采集技术领域的技术方案及系统

  本发明涉及WEB数据采集的技术领域,尤其涉及WEB数据采集的方法和系统。

  背景技术:

  Web诞生于Internet技术。在计算机网络中,提供Web服务的计算机称为Web服务器。 Web使用浏览器/服务器工作模式。每个Web服务器上都放置了大量Web信息。 Web信息的基本单位是一个Web页面(Web页面),并且多个Web页面形成一个Web节点。每个Web节点的起始页面称为“主页”,并具有URL地址(统一资源定位符)。 Web节点和网页以超文本结构(非线性网络结构)进行组织。

  当前,随着Internet技术的飞速发展和信息的爆炸性增长,Web数据分析具有重要的意义。通过分析网页中的大量非结构化数据,您可以获得有价值的报告等,这些报告将提供给网站操作员和管理者以供他们进行决策和操作。其中,Web数据包括,例如,PV(页面浏览,页面浏览)日志,单击(或事件)日志,效果日志(包括登录,订单等)和其他数据。

  当前的WEB数据采集方法采集效率低,安全性能差。

  技术实现要素:

  本发明的目的是提供一种WEB数据采集的方法和系统,以解决背景技术中提出的问题。

  为了达到上述目的,本发明提供以下技术方案:WEB数据采集系统,采集系统包括数据采集设备,数据发送模块和数据接收设备,数据采集设备数据接收设备通过数据传输模块连接。数据采集设备设置有处理单元,数据采集器,数据加密单元,数据病毒检测单元和数据存储单元。 data 采集器输入端连接到data 采集节点,输出端连接到数据加密单元,数据加密单元,数据病毒检测单元和数据存储单元都连接到处理单元,数据接收设备包括第一数据处理单元和第二数据处理单元以及存储单元。

  优选地,第一数据处理单元接收数据并执行成帧处理,将处理后的数据存储在存储单元中并发出第一控制信号;第二数据处理单元和第一数据处理单元,用于根据第一控制信号,从存储单元中读取对应的数据;存储单元包括状态寄存器,第一数据处理单元检测状态寄存器中是否存在未读数据帧,根据检测结果,生成表示状态寄存器的数据位是否有效的第一状态数据。

  最好采集方法包括以下步骤:

  A,节点上的data 采集器 采集 data 采集 WEB数据,采集 WEB数据由数据加密单元加密,然后传输到处理单元;

  B。处理单元向数据病毒检测单元发送病毒检测指令,以对WEB数据进行病毒检测。如果未检测到病毒,它将被传输到数据存储单元进行存储;

  C。之后,将WEB数据通过数据发送模块发送给数据接收设备,数据接收设备读取接收到的WEB数据。

  优选地,步骤B中的数据病毒检测方法如下:

  A。从采集中获取WEB数据中的外部链接,并且外部链接指向数据提供者提供的资源以外的其他资源;

  B。格式化外部链接以获得预设格式的浏览记录。预设格式的浏览记录包括用户标识,数据域名和外部链接;

  C。如果外部链接既不在白色数据表中也不在黑色数据表中,则将浏览记录保存在灰色数据表中。白色数据表用于记录安全的外部链接,黑色数据表用户用于记录病毒的外部链接;

  D。经过预定时间后,根据灰色数据表中用户标识的数量和每个外部链接对应的数据域名数量,确定每个外部链接的安全类型。

  与现有技术相比,本发明的有益效果是:

  (1)本发明的结构简单,可以准确有效地执行WEB数据采集,并且具有很高的安全性。

  (2)本发明中使用的数据接收设备可以通过读取第一状态数据来确定存储单元的数据存储状态,从而确定是否需要继续读取数据。第二数据处理单元数据读取的效率提高了整个设备的数据接收效率。

  (3)本发明采用的数据病毒检测方法可以主动搜索病毒的外部链接,从而达到主动WEB蠕虫病毒搜索的效果,提高了蠕虫病毒的预防和控制效率。

  图纸说明

  图1是本发明系统的*敏*感*词*;

  图2是本发明方法采集的流程图;

  图3是本发明的数据病毒检测方法的流程图。

  具体的实现方法

  以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚,完整地描述。显然,所描述的实施例仅是本发明实施例的一部分,而不是全部。例子。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

  请参阅图1-3。本发明提供了一种技术方案:WEB数据采集系统。 采集系统包括数据采集设备1、,数据发送模块2和数据接收设备3。数据采集设备1通过数据发送模块2连接到数据接收设备3,并且数据采集设备1具有处理单元4、数据采集器 5、数据加密单元6、数据病毒检测单元7和数据存储单元8,数据采集器的输入端] 5连接到数据采集节点9,输出端连接到数据加密单元6,数据加密单元6、数据病毒检测单元7和数据存储单元8全部连接到数据采集节点9。处理单元4,数据接收设备3具有第一数据处理单元1 0、,第二数据处理单元11和存储单元12。

  在本发明中,第一数据处理单元10接收数据并执行成帧处理,将处理后的数据存储在存储单元12中并发出第一控制信号;第二数据处理单元11与第一控制信号A连接,数据处理单元10根据第一控制信号从存储单元中读取对应的数据。存储单元包括状态寄存器,第一数据处理单元检测状态寄存器中是否有未读的数据。在数据帧中,根据检测结果,生成表示状态寄存器的数据位是否有效的第一状态数据。当第二数据处理单元从存储单元读取数据时,其首先读取第一状态数据以确定状态寄存器数据位是否有效。如果有效,则第二数据处理单元继续执行数据读取操作,否则停止处理数据。读取操作。本发明中使用的数据接收设备可以通过读取第一状态数据来确定存储单元的数据存储状态,从而确定是否有必要继续数据读取。这有效地提高了第二数据处理单元的数据读取效率,也提高了整个设备的数据接收效率。

  本发明的采集方法包括以下步骤:

  A,节点上的data 采集器 采集 data 采集 WEB数据,采集 WEB数据由数据加密单元加密,然后传输到处理单元;

  B。处理单元向数据病毒检测单元发送病毒检测指令,以对WEB数据进行病毒检测。如果未检测到病毒,它将被传输到数据存储单元进行存储;

  C。之后,将WEB数据通过数据发送模块发送给数据接收设备,数据接收设备读取接收到的WEB数据。

  此外,在本发明中,步骤B中的数据病毒检测方法如下:

  A。从采集中获取WEB数据中的外部链接,并且外部链接指向数据提供者提供的资源以外的其他资源;

  B。格式化外部链接以获得预设格式的浏览记录。预设格式的浏览记录包括用户标识,数据域名和外部链接;

  C。如果外部链接既不在白色数据表中也不在黑色数据表中,则将浏览记录保存在灰色数据表中。白色数据表用于记录安全的外部链接,黑色数据表用户用于记录病毒的外部链接;

  D。经过预定时间后,根据灰色数据表中用户标识的数量和每个外部链接对应的数据域名数量,确定每个外部链接的安全类型。

  本发明采用的数据病毒检测方法,可以主动搜索病毒的外部链接,从而达到主动搜索WEB蠕虫病毒的效果,提高了蠕虫病毒的预防和控制效率。

  综上所述,本发明具有简单的结构原理,可以准确,高效地进行WEB数据采集,并且具有很高的安全性。

  尽管已经示出并描述了本发明的实施例,但是本领域普通技术人员可以理解,在不脱离本发明的原理和精神的情况下,可以对这些实施例进行各种改变。修改,替代和变化,本发明的范围由所附权利要求书及其等同形式限定。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线