门户媒体网站信息采集功能需求
优采云 发布时间: 2020-08-25 18:18门户媒体网站信息采集功能需求
信息采集功能需求
1.采集器可进行时间控制,比如,下班后设置18.00-9.00采集;
2.通过设定关键词进行采集;
3.数据发布功能,就是采集功能直接镶嵌在CMS后台信息管理中,便于编辑
直接进行信息筛选、审核、修改、删除、生成等可视化提取功能;
4.采集器有实时手动监控功能,就是能在指定网站随时抓取最新的资讯等信
息;
5.具有手动下载表格、图片、压缩包任意文件格式等功能,因为通知里普遍都
有附件要下载;
6.采集到的信息必须精准、有效;
7.采集器可以断点续采;
8.可以多任务多线程采集,比如同时采集多个栏目的信息;
9.采集过来的信息手动生成我们网站对应的网址;
10.采集器要有过滤重复信息的功能;
11.采集过来的信息能保存到现有数据库中;
12.深度采集,比如,一篇文章分5页,那么得完整采集必须采集5页,还有就
是栏目列表分页,不能只采集第一页的,第二页、第三页的也得能采集上;
采集器要能辨识图片,采集时若有图片一齐采集;
13.支持多种格式采集,比如网页、word、excel、pdf等;
14.图文混排采集,因为有的内容里加载图片或则视频等;
备注:编辑部要采集哪些栏目信息必须清楚,只是资讯类呢,还是也要采集论坛、供求商务信息等,如果有的话,采集器也必须满足这种条件。
中国中小企业陕西网马伟娟