网页采集器的自动识别算法(Goonie互联网舆情监控系统应用(一)_国内_光明网)

优采云 发布时间: 2022-02-04 11:08

  网页采集器的自动识别算法(Goonie互联网舆情监控系统应用(一)_国内_光明网)

  Goonie Internet舆情监测系统应用前言1、无论您是政府还是企业,Gooniespider都会自动为您采集您的组织和员工所需的海量信息。2、Gooniespider 不需要你每天在搜索引擎中搜索信息,它会自动发送到你的知识库,帮助你过滤和处理不需要的信息垃圾。3、每个 Gooniespider 每天处理数百万条消息,而您需要数年时间才能完成。这是手动采集信息和智能机器人自动处理信息的革命。4、Gooniespider将是您新闻监督管理和舆论监督管理的好帮手,节省大量人力、物力、财政资源和时间。5、使用Gooniespider 可以让您处理更多、更快、更准确的网络信息。应用说明 监控软件安装在客户端的PC级服务器上。监控软件单元的所有员工都可以根据权限使用系统支持和全网指定。所有管理、维护、浏览、阅读均基于IE浏览器,可部署在内网或外网是多用户协同舆情监控管理平台系统任务,完成全网及指定网站互联网信息监控查找最新、最热、最重要的网络信息,实现实时监控、每日简报、月度专题报道、

  该方案可应用于政府新闻监督、舆论监督等部门。互联网舆情监测系统是一套利用搜索引擎技术、文本处理技术、知识管理方法,通过对海量互联网信息的自动获取、提取、分类、聚类、话题监测、话题聚焦,实现用户对网络舆情、热点事件监测。满足专题跟踪等需求,形成舆情决策库、舆情简报等分析结果,为客户全面掌握舆情动向,为正确舆情提供分析依据指导。系统结构和性能指标高度稳定:机器未上电时,采集系统可以7×24连续运行,不会死机、无故重启、资源耗尽;无需手动监控。性能优越:单台PC的采集能力可达30页/秒,网络带宽高时可达60-100页/秒。出色的效率:采集器 使用了超过 80% 的带宽消耗。提取准确:文本提取准确率为98%,误提取率小于1%。CPU 和内存占用率不超过 50%。环境要求操作系统:win2003/2000 数据库:SQL2005/2000 服务器:CPU3.2G/内存4G/硬盘40G以上带宽要求:2M独占服务器数量:2(1采集监控,

  支持多种网页格式:采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),以及网页中收录的采集图片。支持多种字符集编码采集子系统可自动识别多种字符集编码,包括中文、英文、简体中文、繁体中文等,并可统一转换为GBK编码格式。内容提取和去重内容提取系统可以对网页内容进行分析和过滤,自动去除广告、版权、栏目等无用信息,准确获取目标内容的主体。信息分类支持根据采集栏设置分类,并为分类设置相应的属性,只要将属于该列的信息发送到相应的分类即可。自动去重 分类中文章之间的关系由内容相关识别技术自动确定,如果发现描述相同事件的文章,则自动去除重复部分。Hotspot Mining Discovery Similarity Retrieval 对于给定的样本文档,在文档数据集中查找具有相似内容的文档的技术。实践表明,相似度检索技术的应用可以达到很好的网络内容自动排序和相关文章推荐的效果。聚类 俗话说:“物以类聚,

  ???舆情简报 舆情简报模块根据用户需求,将能够反映监测主题的要点文章编辑成简报报告,提供给相关领导阅读。热点发现 舆情专题报道采用自动聚类技术实现热点发现。系统根据语义和报告的数量,根据信息点的个数,排列出最多文章个话题报告。成功案例 空军司令部 总后勤部 海军司令部 国家知识产权局 国家邮政局 最高*敏*感*词* 中国联通电信研究院 王府井百货集团 浙江娃哈哈集团 中国海洋石油总公司 最高人民*敏*感*词*

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线