[发明专利]一种大数据剖析系统在审

优采云 发布时间: 2020-08-09 19:37

  一种大数据剖析系统,包括搜集剖析系统和数据储存系统;其特点于,所述搜集剖析系统设置有搜索引擎、第一标记模块、过滤系统、临时数据储存模块、数据输入模块、比对模块、过滤模块、数据采集模块、编译模块、数据库、网络服务器、计算模块、对比模块、storm拓扑结构构架、操作系统、调取模块、广告数据库和客户端;所述搜索引擎为搜集剖析系统的开始端口,搜索引擎以便使用者输入关键词,进行相关信息搜索;所述第一标记模块设置在搜索引擎数据的输出线路上,第一标记模块用于将每位网路IP地址输出的数据标记一个非常的符号;所述过滤系统设置在第一标记模块的数据输出端,过滤系统用于妨碍个人搜索时搜索的不良信息数据;所述临时数据储存模块联接着第一标记模块的数据输出端,临时数据储存模块用于短暂储存通过的数据,便于对数据进行剖析;所述数据输入模块设置在过滤系统的输入端口,数据输入模块以便工作人员提早输入须要过滤的不良信息数据;所述比对模块联接在临时数据储存模块和数据输入模块之间,比对模块用于将临时数据储存模块和数据输入模块中的数据进行对比,从而标记出临时数据储存模块中的不良信息数据;所述过滤模块设置在比对模块的数据输出端口处且过滤模块的输出端联接着数据采集模块,过滤模块用于将比对模块中标记的不良信息数据过滤掉,避免后续数据剖析形成问题;所述数据采集模块设置在第一标记模块的数据输出端口处,数据采集模块将搜索的关键词搜集上去,便于后续处理;所述编译模块设置在数据采集模块的数据输出端口处,编译模块将搜集的数据转换为计算机语言,便于计算机系统进行处理;所述数据库的数目对应于网路IP地址的数目,处于编译模块的数据输出端口处,每个数据库用于对应储存标记有不同符号的数据;所述数据库选择为Mysql数据库,Mysql数据库开放性强,便于工作人员随时更改数据库内的数据,避免不良信息过多;所述网路服务器设置在数据库之间,网络服务器用于将各个数据库联系在一起,便于将各个数据库的数据汇集处理,再反馈到每位数据库中,节约处理时间;所述网路服务器为Apache服务器,Apache服务器便于外界对数据库进行访问操作,便于管理者对数据库中的数据进行其他方面的使用;所述估算模块设置在网路服务器的数据输出端口处,计算模块采用平均值估算规则,将关键词出现的次数乘以对应天数,得到数值,公式为L=N/T,其中L为比值数字,N为关键词出现次数,T为从第一次出现后过的天数;所述对比模块设置在估算模块的数据输出端口,对比模块用于对比每种标记的各个关键词的估算比值,输出最大比值的关键词;所述storm拓扑结构构架设置在对比模块的数据输出端口处,storm拓扑结构构架用于矫治对比模块在对比数据过程中发生错误,对其进行矫治;所述操作系统设置在网路服务器的另一个数据输出端口处,操作系统用于从各个数据库中调阅处理之后的数据;所述操作系统选择为Linux系统,Linux系统以便不同顾客以各自的访问权限访问,互不影响;所述调阅模块设置在操作系统的输出端口处,调取模块按照操作系统中提取出的数据调阅相关的广告,发送至相对应的网路IP地址,实现人性化的广告推送;所述广告数据库与调阅模块相连通,广告数据库以便调阅模块调阅相对应的广告;所述客户端设置在调阅模块的数据输出端口处,一个网路IP地址对应一个客户端,便于每位客户端得到相应的广告推送;所述;所述数据储存系统设置有数据库、第二标记模块、第一储存模块、第二储存模块和累加模块;所述第二标记模块设置在每位数据库的网路服务器反馈端口,第二标记模块将处理过的数据再度标记一次,便于与数据库内未处理的数据分开;所述第一储存模块设置在每位数据库内,第一储存模块用于储存未处理的数据;所述第二储存模块设置在每位数据库内,第二储存模块用于储存已处理过的数据;所述累加模块设置在第一储存模块处,累加模块用于计数关键词出现的次数,并且每过二十四小时,为公式L=N/T中的天数T加一,提供数据剖析的准确度。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线