信息采集系
优采云 发布时间: 2020-08-26 23:12信息采集系
《中意信息采集系统》1.适用行业、软件用途: 可用于多种行业的网站信息采集,包括新闻,商品信息,医疗,房产,企业,学校,党政等方 面的网站. 新闻信息采集系统以网路信息挖掘引擎为基础建立而成,它可以在最短的时间内,帮您 把最新的新闻信息从不同的Internet 站点上采集下来,并在进行分类和统一格式后,第一时 间之内把新闻的及时发布到自己的站点起来.从而增强信息及时性和节约或减轻工作量. 2.功能介绍 A.信息获取的范围 可以采集普通的静态和动态网页信息,并手动将jpg,gif 等图片内容采集到本地,同时 将网页中的图片链接手动转换成本地的图片链接.. B.信息重复下载控制 通过对指定页面的位置、内容等条件的智能化信息剖析,有效避免信息的重复下载情况, 提高信息的获取效率。 C.完善的信息源配置 用户可以自定义每位信息源的标识、起始地址、抓取信息地址格式、抓取信息类型、抓 取区域、关键字、启停时间、模版等参数,同时,系统还提供建立的信息源管理功能,可方 便的实现网站信息源的增、删、改、查等操作。 D.下载速率快 多线程多信息源同时,下载用户可以同时启动多个线程进行高速信息页的下载。普通的 网络带宽,每秒可下载10~50 个网页. E.开放性 采集到的网页信息经过系统加工处理后统一储存为采集结果数据库中,方便订制开发和 与其它产品的集成;根据须要还可以把信息统一储存为xml 文件。 F.内容替换设置 内容替换支持正则表达式形式的替换,用户可以按照须要,去除网页中的广告,把不合 排版要求的内容转换成须要的格式. 3.技术特征 A.新闻获取及时响应 可在短时间内(五分钟内),同时获取分布于不同地域不同网站上的实时新闻,即时传递, 即时更新 B.自动排重技术,有效筛选重复信息 C.智能化获取功能,全面 实用 简便 D.定时启动 定时停止 E.可初审后发布,也可直接发布 F.以往新闻检索 G.采集的新闻内容可订制 该系统可依照订制,有选择的在*敏*感*词*主要的新闻网站采集有关的新闻 H.统一信息格式对采集到的不同来源、不同格式的新闻信息进行统一分类和保存 I.可与现有信息系统集成该系统可便捷的与现有的信息发布系统相集成,信息采集系统作为一个独立 的模块运行,不干涉原有系统的运行,集成涉及的仅仅是底层数据(不涉及数据结