资讯内容采集系统(广东省文化E站资源展示案例资讯展示报纸展示“报图览粤” )
优采云 发布时间: 2021-12-07 19:05资讯内容采集系统(广东省文化E站资源展示案例资讯展示报纸展示“报图览粤”
)
网页抓取系统介绍
本产品可以抓取互联网信息,包括图片、问答、新闻等相关内容,还可以支持采集和从任何数据源导入作品,如XML、CSV、RSS、JSON等。此外,我们的平台还支持分布式扩展、横向扩展,通过Drupal的集群,满足大数据的应用,此外还包括容错、告警、多任务、分布式、易扩展等优势。实现了采集与互联网相关信息的结合,提供了丰富的信息来源。
网络爬虫软件解决了单纯依靠人工制作信息导致的工作效率低、内容有限、出错率高等问题。
在技术实现上,我们采用统一的技术架构,分为数据采集器、内容分析器、内容处理器、数据管理展示四个部分。采集的信息流如下图所示:
网页抓取系统应用场景
网络爬虫系统广泛应用于多媒体数据库平台、文化网站平台、公共图书馆门户网站、各类行业信息平台等建设。在案例方面,我们先后开发了多个基于网络爬虫系统的成功案例:
“广东省文化E站”文化信息平台
在广东文化站E项目中,我们对互联网上400多个站点进行了数据采集和数据处理。据后台统计,采集接收和发布的资源信息超过600万条;超过100万条广东文化信息;以及20万多条报纸信息。目前,广东文化E站的信息还在不断更新中,采集获得的有效信息还在不断增值。
广东文化E站部分资源列表采集:
广东文化E站资源展示案例
信息展示
报纸展示
《清末明初画报中广东—广东报刊图片》多媒体资料库
我们将网络爬虫系统应用到“报道图片看广东”项目中,采集从互联网上获取了数万条相关补充数据,丰富了“报道图片看广东”多媒体数据库的内容。采集 数据展示结果如下:
“阳江图书馆”门户网站
我们为阳江图书馆门户网站网站搭建了一个阳江资讯栏目,针对采集大量最新的阳江新闻和阳江资讯,进行了数据分类和处理。呈现给读者:
网页抓取系统的主要功能
采集源码管理
可以对需要采集信息的站点进行统一管理,添加新站点,删除过期的采集站点。采集源可以参数化,如:采集时间、采集数量、关键词、地址、采集数据格式设置等。目前,我们支持HTML、XML/RSS、CSV、JSON等各种通用数据格式,也支持自定义数据格式。
采集信息管理
可以对采集收到的信息进行处理,包括对采集的结果进行分类、编辑、审核、发布、删除、存储位置设置等操作。我们还提供了采集结果测试功能,可以对采集接收到的数据信息进行测试,从而快速检查采集接收到的内容是否正确。
主要产品优势
集群抓取系统拓扑图