智能采集平台(本发明专利技术智能化网络信息采集系统及采集方法(组图))

优采云 发布时间: 2022-04-01 00:24

  智能采集平台(本发明专利技术智能化网络信息采集系统及采集方法(组图))

  本发明专利技术公开了一种智能网络信息采集系统及采集方法,包括网络服务器、任务管理器、任务分发器和信息采集器、网络服务器连接网页数据提取器,网页数据提取器连接任务管理器,任务管理器连接任务分发器,任务分发器连接信息采集器;网络服务器用于根据web协议获取网页中的图片和文字数据;网页数据提取器用于提取网页中的图片和文字数据。智能网信息采集

  下载所有详细的技术数据

  【技术实现步骤总结】

  一种智能网络信息采集系统及采集方法

  该专利技术涉及

  ,具体是一种智能网络信息采集系统和采集方法。

  技术介绍

  在网络信息爆炸的时代,信息量变得异常庞大,在铺天盖地的信息海洋中寻找有价值的信息变得越来越困难。因此,为了解决这个问题,已经使用了很多机器学习方法。方法,例如可以根据用户请求进行预测的页面排名方法等,但是即使使用非常复杂的排名算法,如果没有设置主题索引,即使是最好的信息爬虫也可能无法检索到页。有效信息。为了提供更准确、更高效的搜索服务,信息采集系统通常通过多个服务器节点从主要的网站采集获取所需的信息。但是,出于安全原因,许多采集 @网站 服务器开始限制同一终端的每日访问量,并对一天或一段时间内访问量超过设定访问限制的终端实施IP封锁“惩罚”。由于现有信息采集系统的任务分配机制缺乏灵活性,造成系统资源的浪费,降低了信息采集的效率。

  技术实现思路

  该专利技术的目的是提供一种智能网络信息采集系统和采集方法,具有灵活的任务分配机制,减少硬件和网络资源,提高页面更新效率等优点。为实现上述目的,本专利技术提供以下技术方案:智能网络信息采集系统,包括网络服务器、任务管理器、任务分发器和信息采集器,网络服务器和网页数据提取器连接,网页数据提取器连接任务管理器,任务管理器连接任务分发器,任务分发器连接信息采集器;网络服务器用于根据web协议获取网页中的图片和文字数据;网页数据提取器用于提取网页中的图片和文字数据;任务管理器用于管理数据库,存储网页中的图片和文字数据,保存网页使用规则;任务分配器用于分配采集收到的任务并反馈任务的完成情况,任务分配器在设定的缓冲期内提供对常用网页信息采集器的访问频率判断以及选择当前最适合执行信息采集工作采集器的信息采集器,以及目前最适合访问目标的常用网站网站 并将message采集的任务分配给当前最容易访问的目标网站的message采集器;消息采集器用于接收采集的任务,并将采集的任务添加到任务分配器,信息采集器用于访问和下载信息采集任务的目标网站 分配给它。

  优选地,在获取网页中的图文数据的过程中,网络服务器通过HTTP、FTP、Gopher和BBS中的至少一种或多种网络协议获取网页的数据。优选地,信息采集器用于下载目标网站的规则,并根据规则对网络信息执行采集,上传采集@的结果> 到数据库。优选地,任务分配器用于对信息采集器的采集的结果进行分析处理,然后进行数据统计得到统计结果,并将统计结构上传至数据库。一种智能网信息采集方法,包括以下步骤: S1:根据web协议获取网页中的数据,提取网页中的元素数据,并将提取的元数据存储在数据库中;S2:网页数据提取器对中英文网页和文本进行区分和处理。如果超文本网页编码采用GB2312标准,则为中文网页,否则为英文网页。判断,提取文本,过滤获取的HTML源文件,去除其中的标签控制字符。提取文本信息,移除脚本,解析HTML时,如果遇到Script开始标签,则搜索Script结束标签,搜索成功后在结束标签后继续解析;根据预先建立的特殊字符表,找出网页数据中的特殊字符并对特殊字符进行处理,过滤网页数据字符,存储网页文本:将文本存储在网页中,并在分隔的文本之间添加分隔符,标签分为分隔标签和普通标签。当两个文本之间有普通标签时,两个文本是连续文本;过滤网页数据后,统一网页数据的字符格式;S3:任务管理器对网页数据提取器提取的网页中的图片和文字数据进行管理,并设置网页的使用规则;S4:任务调度器根据接收到的信息执行数据库中存储的数据。根据判断采集器采集目标信息进行判断获取相应信息,在任务管理器中将采集的信息赋值给目标网页,访问并下载目标网页 。

  优选地,S2中要移除的脚本可以是默认脚本作为文本提取出来,然后判断该文本是否为脚本代码,如果是脚本则不采集。与现有技术相比,本专利技术的有益效果如下: 1、专利技术的智能网络信息采集系统可以参考信息采集当前任务分配和服务器的完成状态,根据常用网页的访问量进行任务分配工作,从而提高信息的效率采集,只存储常用网页的数据,大大节省了硬件和网络资源,而且保存的页面由于页面少,更新也很快。, 有利于人们的使用。2、这项专利技术可以准确提取网页数据的文本信息,并且可以去除脚本和过滤掉网页数据字符,保证提取文本的准确性。英文网页并可以采取相应措施避免网页数据被错误处理。附图说明图。图1是专利技术体系*敏*感*词*;无花果。图2是专利技术的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例只是专利技术的一部分实施例,并非全部的例子。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1 一种智能网络信息采集系统,包括网络服务器、任务管理器、任务分配器和信息采集器,网络服务器连接网页数据提取器,网页数据提取器与任务管理器相连,任务管理器与任务调度器相连,任务调度器与信息采集器相连;网络服务器用于根据web协议获取网页中的图文数据,网络服务器用于获取网页中的图文数据。在文本数据处理过程中,通过HTTP、FTP、Gopher、BBS中的至少一种或多种网络协议获取网页数据;网页数据提取器用于提取网页中的图片和文字数据;任务管理器用于管理数据库,存储网页中的图片和文本数据,保存网页的使用规则。任务分配器用于 采集

  智能网信息采集系统可以参考信息采集服务器当前的任务分配和完成情况,根据常用网页的访问量进行任务分配,提高效率信息采集,并且只存储常用网页的数据,大大节省了硬件和网络资源,而且保存的页面由于数量少,更新速度也很快,有利于人们的使用。一种智能网络信息采集方法,包括以下步骤: S1:根据web协议获取网页中的数据,提取网页中的元素数据,并将提取的元数据存入数据库。S2:网页

  【技术保护点】

  1.一种智能网络信息采集系统,包括网络服务器、任务管理器、网页数据提取器、任务分发器和信息采集器,其特征在于:网络服务器连接网页数据提取器,网页数据提取器连接任务管理器,任务管理器连接任务分发器,任务分发器连接信息采集器;/n网络服务器用来根据网络协议获取网页中的图片和文字数据;/n网页数据提取器,用于提取网页中的图片和文字数据;/n任务管理器用于管理数据库和存储网页中的图片和文本数据。文本数据,保存网页的使用规则;/n任务分配器用于分配采集收到的任务并反馈任务的完成情况,任务分配器在设置判断和选择访问次数中设置信息采集器在信息采集器、信息采集器、信息采集、信息采集器的缓冲期内经常使用的网页>目前最适合常用的网站可访问目标网站,并将信息采集任务分配给当前最易访问目标网站的信息采集器 ; /n 信息采集器用于接收采集任务并将采集的任务添加到任务分配者,信息采集器 用于信息采集任务分配给它的目标网站访问和下载。/n

  【技术特点总结】

  1.一种智能网络信息采集系统,包括网络服务器、任务管理器、网页数据提取器、任务分发器和信息采集器,其特征在于:网络服务器连接网页数据提取器,网页数据提取器连接任务管理器,任务管理器连接任务分发器,任务分发器连接信息采集器;

  网络服务器用于根据web协议获取网页中的图片和文字数据;

  网页数据提取器用于提取网页中的图片和文字数据;

  任务管理器用于管理数据库,存储网页中的图片和文字数据,保存网页的使用规则;

  任务分配器用于分配采集收到的任务并反馈任务的完成情况,任务分配器判断采集器内常用网页信息的访问量设置缓冲期。并在信息采集器中选择当前最适合执行信息采集的工作的信息采集器,在常用网站中选择当前最适合的目标网站 @网站,并将信息采集的任务分配给当前最容易访问的目标网站的信息采集器;

  信息采集器用于接收采集任务并将采集的任务添加到任务分配者中,信息采集器用于比较分配给它的信息< @采集任务目标网站访问和下载。

  2.根据权利要求1所述的一种智能网络信息采集系统,其特征在于:网络服务器在获取网页中的图文数据的过程中,至少通过HTTP、一个或FTP、Gopher和BBS之间更多的网络协议来获取网页数据。

<p>3.根据权利要求1所述的智能网信息采集系统,其特征在于:所述信息采集器用于下载目标网站的规则,并执行

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线