网站内容采集系统(2011基于合作式的网站资源采集系统建设的策略描述)

优采云 发布时间: 2021-11-01 09:13

  网站内容采集系统(2011基于合作式的网站资源采集系统建设的策略描述)

  鉴于此,本文提出了一种合作网站资源采集系统模型,阐述了合作采集的概念以及系统构建的背景意义。最后,提出了基于协作采集系统的框架设计和采集的策略描述,以期对组织网站资源的长期保存有新的启示。关键词网络资源保存资源采集合作方式采集系统体系建设中文图书馆分类号TP399文献识别码A文章序号1002-1965(2011) 06-0178-04基于合作的网络采集系统的构建罗倩江恩博(1. 中国科学院成都图书馆,成都 610041;2.中国科学院*敏*感*词*院,北京 100049)摘要 如今,*敏*感*词*有许多连续的、*敏*感*词*的馆藏活动。并且这些项目基于一定的采集频率综合或选择性地采集整个互联网资源。然而,这些资源的采集频率是历史性的。. 本文提出了一种通过资源提供者和资源采集器之间的合作来采集资源的Web采集系统,描述了协同采集的概念和这种系统的背景和意义,最后给出了框架设计。协作采集系统和政策描述。

  这些项目是基于一定的采集频率来完成或选择我们日常生活中的整个互联网资源,并随着信息技术的不断发展而工作采集。然而,它所使用的信息越来越多地以数字形式出现。更接近网络资源的性质,这种方式遇到了很多困难:毕步说,我们的文化、科学和信息遗产越来越数字化,例如很难采集到达所有资源。更新后的版本。这些困难的形式是存在的,而且越来越多的只以数字形式存在(“生的原因是常规资源采集缺乏资源采集方和数字”)。各互联网公司的调查结果表明: a.作为所有资源之间的合作。但是,这种合作是整个互联网世界上最大的资源池。互联网最突出的特点是资源增长速度快,实现难度大。因此,协作采集模型适用于有组织或速度无序的情况;湾 网页。信息更新频繁,其寿命与印刷机构的网络环境有关。材料寿命更短。因此,基于合作采集的概念和系统建设的背景意义,这些资源的长期保存显得尤为重要。同时,网络信息的性质使得采集的工作非常困难。1. 1 基于合作的理念采集 所谓合作基于网站资源采集的当前、持续、*敏*感*词*的采集活动开启,是指资源生产者和资源采集进行了很多管理和开发,例如IA和澳大利亚国家图书馆在技术手段上的合作和合作,完成了一定范围内的资源采集。日期:2011-01- 18 修订日期:2011-03-10 作者简介:罗倩(1987-),女,硕士,研究方向:计算机信息*敏*感*词*,硕士,研究方向:计算机信息*敏*感*词*,硕士,研究方向:计算机信息*敏*感*词*,硕士,研究方向:计算机信息*敏*感*词*,硕士,研究方向:计算机信息处理与检索;姜恩波(1972-),男,硕士,高级工程师,研究方向:信息技术。

  No. 6 罗倩等:构建合作网站资源采集系统·179·采集与保存。合作采集的突出特点是能够实时了解上网率。站资源变化的状态,应根据变化的特点采取相应的措施。可以看出,由于网络资源的个体差异很大,这些集合可以保证采集资源的相对完整和保存。集频选择策略有一定的缺陷,不能完全是采集 1.2以前的非合作采集项目和典型的采集策略。目前,网络资源。有两种主要类型的连续和*敏*感*词*采集 网站 资源的活动。1.3 非合作采集模型遇到的问题是,是否是90年代中期开始并延续至今的各种网络级网络信息保存项目,如PANDORA、或组织联络 资源长期保存项目。如IA、PANDORA、Kulturarw3联盟形式如IIPC或项目形式网络信息保存项目Web信息资源采集实验项目。目标是防止Web等人类面临风险,无论是使用完整的采集策略,还是选择越来越多的科学文化信息以数字形式消失。另一种采集策略,它们的采集模型都是资源采集 用户使用aspect爬取选定的网站或整个互联网网络。这个采集工具定期采集或者资源提供者提交的方法是基于非合作类型的资源。采集模型让他们在采集<的过程中遇到

  对*敏*感*词*采集互联网资源进行索引,为终端用户提供现有资源采集的方法是定期在互联网上访问。采集资源,如果一个网页的内容以一个采集周期更新,无论是网络信息的长期保存项目还是商业搜索引文,采集的部分网页版本都会被错过了。如果在大型采集挖矿引擎中,他们的目标是尽可能多,尽可能在整个采集周期内,网页内容没有变化,同样的内容会采集@ > 网络资源。他们使用的方法是基于某个采集两次或更多次(如图1所示)。频率选择策略,定期重新访问网页。常用的集中式频率选择策略包括:循环、基于变化频率的策略和基于采样的策略。1.2. 1 统一策略(Round-robin)。该策略使用相同的频率重新访问 URL 列表中的所有链接,而不管它们各自的更新频率如何。其原理是为图1中资源采集的循环间隔图设置一个值作为检测频率。每次爬虫需要检测网页变化时,网址都可能发生变化。如图 2 所示,资源可能会发生变化。只需重新抓取所有网页,下载更改后的网页并保留新地址;或将一个网页拆分为两个网页,从而产生生产和存储。@1.2. 1 统一策略(Round-robin)。该策略使用相同的频率重新访问 URL 列表中的所有链接,而不管它们各自的更新频率如何。其原理是为图1中资源采集的循环间隔图设置一个值作为检测频率。每次爬虫需要检测网页变化时,网址都可能发生变化。如图 2 所示,资源可能会发生变化。只需重新抓取所有网页,下载更改后的网页并保留新地址;或将一个网页拆分为两个网页,从而产生生产和存储。@1.2. 1 统一策略(循环)。该策略使用相同的频率重新访问 URL 列表中的所有链接,而不管它们各自的更新频率如何。其原理是为图1中资源采集的循环间隔图设置一个值作为检测频率。爬虫每次需要检测网页变化时,网址都可能发生变化。如图 2 所示,资源可能会发生变化。只需重新抓取所有网页,下载更改后的网页并保留新地址;或将一个网页拆分为两个网页,从而产生生产和存储。图 1 中的@采集 为检测频率。爬虫每次需要检测网页变化时,网址都可能发生变化。如图 2 所示,资源可能会发生变化。只需重新抓取所有网页,下载更改后的网页并保留新地址;或将一个网页拆分为两个网页,从而产生生产和存储。图 1 中的@采集 为检测频率。爬虫每次需要检测网页变化时,网址都可能发生变化。如图 2 所示,资源可能会发生变化。只需重新抓取所有网页,下载更改后的网页并保留新地址;或将一个网页拆分为两个网页,从而产生生产和存储。

  这种策略简单易实现,但完全忽略了网页本身的新地址;或某个地址停用一段时间后的新个性化功能。它被不同内容的资源重用。虽然现有的归档系统应该是1.2.2 一种基于网页变化历史的策略(Change-fre-应该可以跟踪资源地址的变化,但一般来说,如果是不是基于quency的)。基于网页变化历史的策略需要采集资源提供者的通知或其他智能工具的跟踪,而不是网页变化的历史轨迹。简单的方法是通过更改的总数可以很容易地知道发生了哪些更改。X/时间间隔T。首先,每个网页都设置了一个生命周期,在生命周期结束时进行重访监控。当对某个网页的变化频率有一定的统计估计时,根据估计的网页变化频率调整该网页的生命周期。另外,网页变化的频率往往是不规则的,通常很难分析出准确的网页变化频率。1.2.3 基于采样的策略。该策略的基本出发点是:绝大多数网页以网站或其他组的形式聚集,不同网页组之间的平均变化频率差异很大,但同图 2 资源 URL 因可访问性变化*敏*感*词* 其他因素的限制导致一些保留价格组的变化频率接近。因此,具有一定数量样本页面值的资源无法被网络机器人访问。基于合作人脸,样本页面Frequency的变化来确定属于Intelligence Magazine Volume 30·180的组的变化频率·采集模型可以很好的解决这些问题。

  好的采集策略采取相应的措施。资源采集回来后,meta1.4 Cooperative 采集模式适用范围和意义,尽管网络数据*敏*感*词*和资源管理组件根据建立的元数据管理资源采集和归档活动已经进行了很长时间,但管理策略和资源保存策略完成元数据的修改和新资源的参与,大多是国家顶级文化机构或大型互增。,而且他们的采集和存档对象都是基于整个国家域名甚至整个互联网。随着网站成为越来越重要的信息发布方式,政府、大学、研究机构等各类机构都需要对自身及其所属机构的Web内容进行归档。它们与前两者的一个重要区别是,整体资源采集不是很大,但需要资源采集的完整性。目前的主动非合作资源采集方式不太适合它。图3 系统拓扑图,而协作采集模式因其工作原理而特别适用于此。资源管理行为的监控,基于新闻联系的此类机构的网络环境,如中科院,CALIS发布的被动实时采集,和资源(元数据)管理程序是基于大学组和德国马克斯普朗克研究实验室组等。这种组式采集系统的三个主要组成部分。机构和机构之间的关系比彼此更“密切”或更可信。

  如果其他机构信任这种合作模式,只要他们有保存自己资源的意向,可以自行组织采集或者第三方机构可以提供采集保存的技术支持。因此,针对上述采集的漏取或重复获取等问题,基于协作资源的采集模式有更多的插件位于网站服务器上。发送相应的消息,以便解决这些问题。这种模式虽然增加了资源提供者和资源采集之间的沟通与合作,但需要制定和限制技术采集的策略。图4 基于协作资源采集系统*敏*感*词*采集 协商的范围等方面,需要相当数量的系统功能模块,主要包括以下几个方面。积极采集建模人力资源,但同时可以解决知识产权问题,事实并非如此:网页由许多对象组成,例如HTML文本和XML文本,这是面临的常见问题通过当前的资源归档服务。书籍、图像、程序、*敏*感*词*等。每个对象都由一个 URI 标识,该 URL 通常用于指向一个地址。网页有两种类型:基于协作采集系统框架设计的动态网页2和静态网页。静态网页不是运行在服务器端,而是直接基于协作资源。采集 系统拓扑是一个网页,呈星形传送给用户端,而动态网页则是基于数据库技术结构,如图3所示。采集 服务器位于星型结构中间,基于技术,在服务器端运行后返回用户网页。

  并且各种Web资源服务器散布在它周围。图4显示采集动态网页的组合方式有两种:一种是采集源对象和程序风格采集系统的最简单存在,即只有一种与采集序列。编码; 另一个是网站资源服务器,采集最终交付给用户展示的网页形状集。部署了每个网站资源服务器。前者称为内形,后者称为*敏*感*词*内的添加、修改、删除) > of 采集; 一个更新监控模块:管理和*敏*感*词*指定范围内资源的页面等),然后向采集服务器发送事件消息。采集更新行为,例如新网页、网页内容更改、消息触发的网页地址服务器、并根据消息的性质、先前协议的变更、网页的删除等;罗倩,第6期等:基于合作网站资源采集系统·181·更新消息发布模块的构建:网站资源更新后插件-在不同国家或整个互联网的在线档案类型之间产生一个差距 它将是一个新消息并发送到资源采集模块;今后要做的工作。该插件在不同国家或整个互联网的在线档案类型之间产生了一个差距,它将是一个新消息,并发送到资源采集模块;今后要做的工作。该插件在不同国家或整个互联网的在线档案类型之间产生了一个差距,它将是一个新消息,并发送到资源采集模块;今后要做的工作。

  消息触发的被动实时采集模块:当前互联网参考采集工具对资源采集使用URL*敏*感*词*驱动方法。[1] Junghoo Cho, Alexandros Ntoulas。Effective Change Detection 机器人收到初始 采集 *敏*感*词*后,将遵循预先制定的策略 thUsing Sampling[C]。28国际会议论文集- 稍微处理资源采集,然后从采集返回的页面中解析出中国香港VeryLargeDatabase上的ence:MorganKauf-URL*敏*感*词*,导入爬取队列,重复一次又一次。在合作资源mann, August2002 source 采集系统中,收到的采集工具不是简单的URL类型[2] Wasuke Hiiragi, Tetsuo Sakaguchi。一个基于策略的子系统,但是一个消息序列。消息包括源地址、信息机构WebArchiving[J]. JournalofSinderDirect,2005,源码更新属性,资源文件名等。

  [2010-09-11] http://在web服务器中。采集 策略描述由模式和动作组成 [6] PANDORA Archive。[EB/OL][2010-09-11]:(见表1)。

  模式是用于明确指定策略的正则表达式。au/index.html。PANDORA 简要描述了所申请资源的地址或地址域。当 [7] Ingeborg Verheul。网络数字保存:当前更新,如添加、更改或删除,其URL将与15个国家图书馆的实践相匹配[J]. 国际资源域联合会中的格局。因此,相应的图书馆协会和机构,2006,8(5) 将在更新后的网页上执行操作。[8] Michael Day. The LONG-term Preservation of Web Content[J]. UKOLN,University of Bath , 2005, 5(12) 存档标签:GET 表示执行 采集, NO_GET[9] Daniel Gomes, Sergio Freitas, Mario J. Silva Design and Selec-No采集 .Tion国家网络档案馆的标准[J].

  [10] Stephan Stodl、Christoph Becker、Robert Neumayer、Andreas 采集 方法:采集 方法描述了触发 采集@ 行为的 Rauber、Eleonora Nicchiarelli Bettelli、Max Kaiser、Hans Hof 方法>、CRAWLER(时间)的意思是按照man、Herike Neuroth、Stefan Strathmann、Franca Debole和Giuseppe Smato设定的一定时间间隔周期性地执行采集。Evaluating Preservation Strategiesfor Electron-。EVENT_DRIVEN 意为更新ic论文和Dessertation[J]. 数字图书馆:研发、LNCS 事件触发 采集 行为生成。4877,2007:238-247 表 1 策略类型和说明 [11] Kyung Ho Choi, Dal JuJeon。韩国国家图书馆战略型模式行动网络归档系统:OASIS [C]。ICDL2006,归档标签 URLGET/ NO_GETLNCS4312, 2006:313-322 表格 URLEXTERNAL/INTERNAL[12] 澳大利亚国家博物馆[J]. DigitalPreservationandDigi-采集Method URLCRAWLER(time)/ EVENT_DRIVENtisation Policy,2009[13] John Tuck。从集成到网络归档[J],2008:

  当前网络存储的主要原因[15] Kulturarw3Project.[EB/OL]。[2010-08-20]:文件项目不能解决这些问题主要是由于资源不足/en/aunual-会议与资源的合作采集。而这种合作方式采集解决了[16] Zdnek Stachon的问题。档案过程中的数字化问题,他们愿意自救网站[J]. Preservation in Digital Cartography,Geoinformation and Cartography 讲义,第 4 部分,2010:257-272 资源,但由于技术或经济限制,无法实施采矿 [17] Daniel Gomes、Andre Nogueira、Joao Miranda、Miguel Costa。采集。这种合作方式的缺点是只适用于介绍葡萄牙网络档案倡议[J]. 过程 网络环境,不适用于全球或国家互联网。

  由于第八届国际档案馆,2008年,如何使多个组织在网络归档中进行合作、弥补和基于整体(下一页177)信息杂志第30·182卷181) [21] 刘兰、吴振新、张志雄等。网络档案馆的采集@bin>18] [Paul] [Koh]。魏来译。澳大利亚现代图书馆与信息技术网域爬取与收获研究,2008年研究报告[R].海外观察,2006[22] 孟涛,闫鸿飞,王继民。网页信息变化的时间局部性[19] 李华,吴振新.网络档案馆发展历程及发展趋势研究[J].规律及其验证[J].信息学报,2005(4)@ >现代图书馆与信息技术,2009(1): 2-9 [23] 高建秀,吴振新,张志雄.网页变化检测相关技术与方法研究 [20] 万玲,张晓林.数字资源长期保存过程中的知识产权问题[J]. 数字图书馆论坛,2009分析[J].中国图书馆学杂志,2005(3)(责任编辑:刘英梅)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线