智能采集系统( 技术领域本发明涉及技术的具体为提供如下技术方案)

优采云 发布时间: 2021-12-17 20:16

  智能采集系统(

技术领域本发明涉及技术的具体为提供如下技术方案)

  一种智能网信息采集系统及采集方法

  技术领域

  本发明涉及技术领域,具体涉及一种智能网信息采集系统及采集方法。

  背景技术

  在互联网信息爆炸的时代,信息量变得极其庞大,在铺天盖地的信息海洋中寻找有价值的信息变得越来越困难。因此,为了解决这个问题,已经有很多机器学习的方法使用了。方法,比如可以根据用户请求进行预测的网页排名方法等。 但是,即使使用非常复杂的排名算法,如果没有设置主题索引,再好的信息爬虫工具也未必能做到检索网页。有效信息。

  为了提供更加准确、高效的搜索服务,信息采集系统通常使用多个服务器节点从各种网站采集中获取所需的信息。但是出于安全考虑,很多采集@网站服务器开始限制同一个终端的单日访问量,并对超过一天访问量超过设定上限的终端实施IP封锁“惩罚”或者一段时间,由于现有的信息采集,系统的任务分配机制缺乏灵活性,造成系统资源的浪费,降低了信息的使用效率采集。

  发明内容

  本发明的目的是提供一种智能网络信息采集系统和采集方法,具有灵活的任务分配机制,减少硬件和网络资源,提高页面更新效率。

  为实现上述目的,本发明提供如下技术方案:一种智能网络信息采集系统,包括网络服务器、任务管理器、任务分发器、信息采集器、网络服务器与网页数据提取器相连,网页数据提取器与任务管理器相连,任务管理器与任务分发器相连,任务分发器与信息采集器相连;

  web服务器用于根据web协议获取网页中的图片和文字数据;

  网页数据提取器用于提取网页中的图片和文字数据;

  任务管理器用于管理数据库,存储网页中的图片和文字数据,保存网页的使用规则;

  任务分配器用于分配和反馈采集收到的任务。任务分配器判断信息采集器在设定的缓冲时间内访问常用网页的次数,并选择当前最适合执行信息采集工作的信息采集器 @采集器,以及常用网站中当前最适合访问的目标网站,并将信息采集的任务分配给目标的信息采集器 网站 目前最适合接入的;

  信息采集器用于接收采集的任务并将采集的任务添加到任务调度器中,信息采集器用于比较分配给的信息它。@采集任务目标网站访问下载。

  优选地,在获取网页中的图片和文字数据的过程中,Web服务器通过HTTP、FTP、Gopher、BBS中的至少一种或多种方式获取网页数据。

  优选地,信息采集器用于下载目标网站的规则,根据规则网络信息为采集,上传采集的结果到数据库。

  优选地,任务分发器用于对信息采集器的采集的结果进行分析处理,然后进行数据统计得到统计结果,并将统计结构上传到数据库中。

  一种智能网信息采集方法,包括以下步骤:

  S1:根据web协议获取网页中的数据,提取网页中的元素数据,并将提取的元数据存入数据库;

  S2:网页数据提取器处理中英文网页和文本。如果超文本网页编码采用GB2312标准,则为中文网页,否则为英文网页。网页标题和正文中的中文、英文或符号,通过字符编码判断范围,提取文本,过滤得到的HTML源文件并去除标签控制字符提取文本信息,去除脚本,并解析HTML,如果遇到Script开始标签,寻找Script结束标签,搜索成功后,继续分析结束标签;根据预先建立的特殊字符表找出网页数据中的特殊字符并对特殊字符进行处理,过滤网页数据字符并存储网页文本:在网页上执行文本 对分离的文本进行存储和添加分隔符,将标签分为分离标签和普通标签。当两个文本之间有普通标签时,两个文本为连续文本;最后对网页数据进行过滤,统一网页数据字符格式;

  S3:任务管理器对网页数据提取器提取的网页中的图文数据进行管理,设置网页的使用规则;

  S4:任务调度器根据接收到的信息对数据库中存储的数据进行判断,并根据判断得到合适的信息。在任务管理器中分配到目标页面以访问和下载目标页面。

  优选地,S2中的移除脚本也可以是默认脚本为文本并提取出来,然后判断该文本是否为脚本代码,如果是脚本则不采集。

  与现有技术相比,本发明的有益效果如下:

  1、本发明的智能网络信息采集系统可以参考采集服务器当前任务分配和完成情况,根据常用的访问次数进行任务分配网页,从而提高信息采集 效率高,只存储常用网页的数据,大大节省了硬件和网络资源。保存的页面也因为数量少更新快,有利于人们的使用。

  2、 本发明可以准确提取网页数据的文本信息,去除脚本,过滤网页数据字符,保证提取文本的准确性,可以对特殊字符进行特殊分析处理,可以识别中英文网页也可以采取相应的处理措施,避免网页数据的错误处理。

  图纸说明

  图1是本发明的系统*敏*感*词*;

  图2是本发明的流程图。

  详细说明

  下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

  示例 1

  一种智能网络信息采集系统,包括网络服务器、任务管理器、任务分配器和信息采集器,网络服务器与网页数据提取器相连,网页数据提取器与信息采集器相连。任务管理器,任务管理器与任务分发器相连,任务分发器与信息采集器相连;网络服务器用于根据web协议获取网页中的图片和文字数据,网络服务器用于获取网页中的图片和文字数据,在此过程中,网页数据通过至少一种或多种 HTTP、FTP、Gopher 和 BBS 网络协议;网页数据提取器用于提取网页中的图片和文字数据;任务管理器用于管理数据库,存储网页中的图片和文字数据,并保存网页的使用规则;任务调度器用于将任务分配给采集并反馈任务完成情况,任务调度器会设置信息采集器来判断和选择常用网页的访问次数在采集器的缓冲期内,当前最适合执行的信息采集工作信息采集器,以及当前最常用的网站目标网站适合访问,将信息采集的任务分配给当前最适合访问的目标网站信息采集器,任务分配器用于信息采集器@ >的采集结果进行分析处理,然后通过数据统计得到统计结果,并将统计结构上传到数据库;信息采集器用于接收采集任务,并且采集的任务被添加到任务分发器中,信息采集器用于访问和下载分配的信息给它采集任务目标网站,使用信息采集器 下载目标网站的规则,根据网络信息对采集执行规则,并将采集的结果上传到数据库。

<p>智能网络信息采集 系统可以参考信息采集服务器当前任务分配和完成状态,根据常用网页的访问情况进行任务分配,从而提高信息

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线