关键词信息采编自动采集;快速发布中图分类号949.292

优采云 发布时间: 2021-07-03 22:35

  关键词信息采编自动采集;快速发布中图分类号949.292

  文档介绍:在线信息automatic采集系统.doc 在线信息automatic采集system 摘要在线信息automatic采集system 是使用网络信息采集器automatic 网上采集各种信息需要的,包括文字、图片等内容,并使用存储的模板进行分类、存储和播放,以实现实时快速播放。并具有检索、监控、保护等功能,具有速度快、智能化的特点。通过该系统,可以解决目前传统信息采集和搜索引擎准确率低、检测率低、不灵活的缺点。 关键词信息采编;自动采集;中文图书馆分类号快速发布 TN949.292 文献识别码 A文章 编号 1673-9671-(2013)012-0150-01 1 背景,互联网时代的一切 一切都在高速运转. 每分每秒都在产生无数的新信息,第一时间获取全面准确的信息,已经成为与信息密切相关的各行各业的迫切需求,随着网络信息资源的快速增长,人们付出的代价也越来越高。并且更加关注如何开发和利用这些资源。但是,目前的中英文搜索引擎存在查准率和查全率不高的现象,不能适应当前用户对高质量网络信息服务的需求;与此同时,电子商务和各种网络信息服务正在迅速兴起,原有的网络信息处理和组织技术已经跟不上。这种发展趋势。网络信息挖掘就是在这样的环境中。它应运而生,迅速成为网络信息检索和信息服务领域的热点之一。

  随着互联网的飞速发展,越来越多的信息呈现给用户,在现实生活中,但同时存在的问题是,用户获取自己最需要的信息越来越困难对于用户一般的信息查询和检索需求,传统信息采集器组成的搜索引擎可以提供更好的服务,但对于用户更具体的需求,这种基于采集提供的整个网页的传统信息服务就差强人意了对于每个用户,即使输入相同的查询词,他们想要的查询结果也不尽相同,而传统信息采集和搜索引擎只能死板地返回相同的结果。这是不合理的,需要进一步改进。对此,本文提出了一种基于CIS结构的在线信息采集与编辑系统。在线信息采集与编辑系统可实现在线信息检索数据库的实时监控、采集、存储和实时更新,并提供包括最新信息在内的全文检索,可充分满足各种复杂的需求。和要求的信息服务。 2 原理网络信息采集主要是指通过网页之间的链接关系,自动从一个网页中获取页面信息,并随着链接不断扩展到需要的网页的过程。这个过程的实现主要是通过网页信息采集器来完成的。根据不同的应用习惯,粗略的讲,主要是指一个程序从一组初始的URL开始,把这些URL都放到一个有序的采集队列中。而采集器依次从这个队列中取出URL,通过网页上的协议获取该URL指向的页面,然后从这些获取到的页面中提取出新的URL,继续放入等待的采集Queue,然后重复上述过程,直到采集器按照自己的策略停止采集。

  对于大多数采集器,到此结束,而对于一些采集器,还需要对采集到达的页面数据和相关处理结果进行存储索引,然后在此基础上进行纠正从语义上分析内容。 3结构网页信息采集系统基本上可以分为5个部分:URL处理器、协议处理器、重复内容检测器、URL提取器、Meat信息获取器。以及几个功能子系统:信息监控系统、信息采集系统、信息存储系统、检索系统。 3.1信息监控系统信息监控系统的作用是时刻跟踪信息源的更新状态,一旦有新的信息出现,立即通知采集系统。其主要特点包括:1)高效监控:多线程并发监控设计,每分钟多达数百个网站可以完成是否有信息更新的判断,使用效果非常好。 2)低带宽占用:自动提取网页特征属性判断是否有更新,每次需要传输的信息只有

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线