解决方案:web信息采集系统的需求剖析

优采云 发布时间: 2020-08-29 03:40

  web信息采集系统的需求分析

  web信息采集系统的需求剖析 要:本文对web信息采集系统进行需求剖析,描述了系统具有的功能,并剖析了 系统的功能需求和非功能需求。 关键词:需求;信息;采集 中图分类号:TP274.2 采用人工方法使用浏览器复制粘贴实现web 信息的采集,效率低、错误率高。如果采集 的信息量大,人工方法根本没法完成。采用web 信息采集系统实现web 信息的采集与处理是 较好的解决问题的办法。 需求概述开发web 信息采集系统的目的是满足用户从多个指定网站自动定时地采集文章的信息, 包括文章标题、正文、作者、时间、来源等,并且还能分类储存信息,以满足信息再利用的 目标。信息采集程序不能预测和获取用户的确切需求,所以系统应提供给用户递交需求的平 台,通过此平台用户可以及时递交采集任务,告诉采集系统采集什么样的数据。 Web 信息采集系统分为采集配置和采集两个子系统。如图一所示。 web信息采集系统组成 采集配置子系统是为了满足普通用户递交采集需求的。用户通过子系统配置目标信息的 采集任务,包括文章的发布状态、站点名称地址、所属栏目、采集时间、采集规则等多项要 求,采集配置子系统就能够及时开启和停止采集任务的执行。

   采集子系统完成具体的信息采集工作。它依据采集配置子系统对采集任务的设置,自动 对网站信息进行采集、抽取、去重,从网页中抽取大量非结构化的信息保存到结构化的数据 功能需求Web 信息采集系统功能如图二所示。 web信息采集系统功能*敏*感*词* 采集配置子系统主要完成以下功能: (1)采集任务管理 实现用户对采集任务的增删改查操作,每一条采集任务对应一个现有栏目,以实现采集 内容的分类、处理、存储。 (2)自动生成抽取规则 用户选择采集数据项,系统即可手动智能生成相应的数据抽取规则。当配置网页发生变 化时,抽取规则需重新生成。 (3)定制去噪去重规则 从网页获取到的大量信息中,可能存在用户不需要的信息,也有重复性的内容,这些信 息和内容会干扰抽取内容的排版及使用,需要对这类信息进行去噪去重处理。 (4)采集任务开启停止 采集任务可以及时开启和停止运行,采集任务配置完成后可以及时加入采集子系统进行 信息采集工作。 采集子系统主要完成以下功能: (1)动态采集信息 用户对网页信息的采集要求有很高的时效性,比如对新闻资讯的采集,如果不能及时反 馈给用户,即使是价值很高的信息,也丧失了它的意义和价值。

  所以对信息才能实现动态采 集就很重要,系统应具备动态采集机制可以实现定时对网站内容进行手动检查,及时获取网 站最新信息。 (2)运行监控 因为信息采集过程是动态运行,所以系统应及时监控采集任务的运行情况。信息采集出 现问题,系统应及时发觉并反馈给用户,由用户按照问题出现的类别做相应处理。 非功能需求不仅实现web 信息采集的功能需求,系统还应当满足用户以下非功能需求: (1)准确性 如何从繁复复杂的广袤信息海洋里确切获取到用户须要的信息,是系统设计时须要重点 考虑的问题。只有才能确切获取信息能够实现用户对有效信息的再利用。 (2)高效性 信息采集系统才能从众多站点获取信息,但用户须要最短时间确切获取自己所须要的信 息,所以及时高效的把有效信息呈送到用户面前,是系统功能是否满足用户需求的一个必要 的方面。 (3)易用性 系统使用的最终顾客是普通的用户,因此系统使用界面应简单易用,采集任务的规则配 置也应当经过简单培训后才能灵活把握。 (4)稳定性 在进行采集配置时,不合理的配置规则系统才能及时给出提示信息。信息采集过程中, 对于不符合规范的采集配置要求,系统应才能及时纠正。长期使用系统应不断修正以满足长 期稳定地工作。

   Web 信息采集系统才能在用户的简单配置下实现信息源内容的手动采集,为信息的再利 用提供了技术保障。 参考文献: [1]中国互联网络信息中心.第 31 次中国互联网路发展状况统计报告[R].http: ///gywm/shzr/shzrdt/20130l/t20130115―38518.htm,2013. [2]蔡智澄,王志华.搜索引擎的主要特性及其检索策略[J].现代情报,2005. [3]李春旺.信息主题采集技术研究[J].图书情报工作,2005. [4]陈少飞,郝亚南,李天柱.信息抽取技术研究进展[J].河北大学学报(自然科学版), 2003. [5]宫进,胡长军,曾广平.互联网信息定向采集系统的设计与实现[J].计算机应用,2007. 作者简介:杜素芳(1975-),女,河南新乡人,讲师,硕士,研究方向:软件工程。 作者单位:濮阳职业技术学院,河南新乡 457000

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线