会议预告|2019年IIPC网页存档会议将在克罗地亚萨格勒布召开

优采云发布时间: 2022-09-12 14:30

　　Part1 会议简介

　　IIPC 网页存档会议将于2019年6月6日和7日在克罗地亚萨格勒布举行。IIPC网页存档会议是一个国际论坛，为网页存档从业者，研究人员，开发人员以及从网页存档开始的人们提供分享经验，传播知识的机会。这也恰逢克罗地亚网络档案馆（HAW）成立15周年。

　　第一位主讲人是欧洲平台运营商Europeana Foundation的执行董事Harry Verwayen。他通过广泛提供数字馆藏，支持博物馆、画廊和档案馆进行数字化转型，以便人们可以找到并高效使用它们。

　　Part2 About the IIPC

　　01成立背景（HISTORY）

　　2003年7月，IIPC在法国国家图书馆正式成立，共有12家机构参加。成员们一致同意资助和参加为实现IIPC的目标而设立的项目和工作组。最初的协议有效期为三年，成员仅限于特许机构。IIPC现在向世界各地的图书馆、档案馆、博物馆和文化遗产机构开放，欢迎查询成为会员。

　　02身份介绍（WHO WE ARE)

　　IIPC成员是来自45个国家的组织，包括国家、大学和区域图书馆和档案馆。成员参加了专注于网络档案内容开发和保存的工作组。领导IIPC由选举产生的指导委员会、成员干事和工作组*敏*感*词*领导。

　　03任务及目标（MISSION & GOALS）

　　IIPC的使命是为世界各地的人从互联网获取、保存和提供可获取的知识和信息，促进全球交流和国际关系。

　　为实现这一使命，IIPC正在努力实现以下目标:

　　Part3 About the Web Archiving

　　01何为网页存档？

　　网页存档是收集万维网的部分内容，以档案格式进行保存，并提供访问和使用服务的过程。

　　02为什么要进行网页存档？

　　互联网开创了前所未有的知识共享、创造创新和互联的时代，并为负责记录和保存当代知识和文化的机构带来了新挑战。记忆保存机构收集的许多信息内容现在只能在网上获得和使用，如学术出版物，宣传材料，艺术品，政府文件和新闻。随着网页内容不断更新和展现形式的动态化，为留存这些内容，延续传承，必须对网页进行实时捕获和保存。网页资源的可用性和持久性是数字社会中不可忽视的问题。实际中，“链接损坏”现象丛生。由于网页以不保留旧URL的方式关闭或重新设计，使得网络上共享的大量URL在一段时间后不链接，导致网页内容不能继续访问。

　　另外，网页内容可能会基于法律因素被官方取消；或由共享它的用户从社交媒体上删除；或者因为“被遗忘的权利”等种种原因被删除。这些现象所反映出的网页内容短暂性的问题，引发了人们关于其对信息的可用性、问责制甚至审查制度的影响的争论。种种情况，使得Web存档服务在当今的信息生态系统中发挥着越来越重要的作用。如Wayback Machine ()它主动地对网页的大部分内容进行存档，允许用户检索和回溯超过3,000亿页的历史网页。存档服务除了解决链接损坏问题外，还有许多其他用途。

　　如果你也对网页存档感兴趣的话，可以跟小编一起接着看看这些：

　　(1)网页存档过程的工作原理

　　An overview of how the process of web archiving works

　　目的：弥补现有馆藏的不足并服务不同的目标。

　　内容：为文化遗产或作为版权保管制度的一部分的内容。不同组织收集的内容不同，大学一般专注于收集为研究者或教育需求服务的网络档案；公司组织收集的网络档案一般用于法律或记录保存，主要存档网页上的特定文件或站点。

　　保存：对网络归档的目的是在不进行修改的情况下保留所收集内容的原始形式。为了实现这一目标，需要适当的工具、标准、策略和最佳实践，以确保随着时间的推移对网络归档的管理。

　　访问：网页存档的数据需要使用特殊的软件工具。研究人员可以一页一页地查看存档的web站点，也可以将整个集合作为数据进行处理，从而揭示出集合的广泛特征。隶属于IIPC的组织致力于确保它们的网络档案收藏得到保护，并使未来的研究人员、历史学家和公众能够访问它们。

　　(2)IIPC成员开发和使用的工具和软件，用于存档和提供对历史网络资料的访问

　　Tools & Software

　　存档主要用到的工具有；运用ArchiveBox(原书签存储服务器)来维护来自RSS的提要、书签和链接，利用archivenow(一个Python库)将web资源按需推送到web存档中。并且安装运用Brozzler、crocoite、Heritrix、squidwarf c、Web2Warc等爬虫程序,获取页面并提取链接，获取网页内容，利用SiteStory选择性地捕获和存储在web客户机(浏览器)和web服务器之间发生的事务，并通过WARC输出所抓取的内容，利用html2war将每个简单的脚本转换离线数据，之后使用*敏*感*词*这一工具进行检索与访问。普通用户通过Social Feed Manager来自Twitter、Tumblr、Flickr和新浪微博公共api的社交媒体。

　　(3)用于存档Web的众多用例的案例研究

　　Case studies

　　网站的*敏*感*词*语料库的捕获为分析文本模式和趋势的提供了无限可能——利用词频分析、文本情感分析、可视化分析等技术提取和分析Web档案馆重的已爬网站，揭示诸如术语之间的共现频率关系，还可以对大量文本执行情感分析，以确定在讨论特定主题时使用的情绪。N-gram检索是一个用语可视化工具，用于绘制用户定义的搜索词或短语随着时间的推移而出现的情况。

　　详情可见

　　（UK Web Archive: N-gram Search项目）

　　随着大型网站被捕获，它们之间的链接也被捕获。通过挖掘这些链接的站点和数据网络，可以观察个人、机构等之间的关系。Common Crawl是一个非营利组织，它对网站进行捕获并向公众免费提供其档案和数据集，以探索不同语言的网站之间的链接并实现其可视化。

　　详情可见

　　（Babel 2012 Web语言链接项目）

　　Part4 总结

　　网页存档是收集已记录在万维网上的数据，存储数据，确保数据保存在存档中，并使收集的数据可用于未来研究的过程。互联网档案馆和几个国家图书馆于1996年启动了网页存档实践。国际互联网保护联盟（IIPC）于2003年成立，也极大地促进了国际合作，开发了用于创建网络档案的标准和开源工具。这些发展，以及在网络上创建和记录的人类文化的不断增长的部分，使得网页存档成为越来越不可避免的趋势。图书馆和档案馆以及相关机构必须面对网页存档的挑战并且为应对这些挑战做好准备。

　　统稿：孙馨阳

　　撰写：孙馨阳、刘贞伶、秦杨、许雅炘、何玉颜

　　排版：何玉颜

　　审核：李子林、刘俊恒

0

2022-09-12

c 抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

会议预告|2019年IIPC网页存档会议将在克罗地亚萨格勒布召开

0 个评论

发起人