网页音频抓取软件( 互联网档案馆:定期收录并永久保存全球网站上可以抓取的信息)

优采云 发布时间: 2022-01-31 07:19

  网页音频抓取软件(

互联网档案馆:定期收录并永久保存全球网站上可以抓取的信息)

  

  互联网档案馆?不知道有多少人听说过“互联网档案馆”?有多少人知道互联网档案馆存在的意义?

  事实上,互联网档案馆(The Internet Archive)从 1996 年就成立了,它的功能是定期收录,并将可以捕获的信息永久保存在全球的网站 上。

  Internet Archive 由 Alexa 创始人 Brewster Cali 创立。这是一个公益项目。它的中文名字可以叫“互联网档案馆”或“网站时光倒流机”。

  对于不同的网站,“Internet Archive”收录的网页数量和采集周期不同,一些较大的网站可能每天“备份”一次,每次可能收录几十个或更多的网页,而一些小的网站可能一年收录几次,一次只有几个网页。研究不同时期的网站史料是互联网档案馆的最大价值。用户可以通过“Internet Archive”的“Take Me Back”查询网站的发展和历史资料。

  Internet Archive 收录 程序包括什么?共有六个模块,分别是:电子书、网页、视频、音频、软件和教育材料。你知道吗?截至2012年10月,其信息储备达到10PB。网络爬虫爬取超过 1500 亿个网页。

  电子书

  任何人都可以免费下载的公共领域书籍和文档的集合,使其成为互联网上最好的公共领域书籍搜索引擎。截至 2013 年 7 月,档案馆采集了 440 万本书,每月下载量超过 1500 万。截至 2008 年 11 月,该档案共有 100 万条网络文本,总大小高达 0.5PB,涵盖原创照片图像、裁剪和倾斜图像、PDF 文件和原创 OCR 数据。

  网页

  上面我们也提到了网页的合集可以说是:“网站Time Machine”。是 Internet 档案馆最重要的服务之一。时光机让人们可以搜索和访问它的网络档案,即使你曾经自己创建了网站,现在它已经不存在了,怎么可能是收录,而且你可以在上面找到< @k17@ > 痕迹。可以说,这就是所谓的:雁传声,人传名。

  比如:我以前有两个自己的独立博客,一个是godcoder.me,一个是godcoder.me,而这个独立的博客很久没用了,已经不存在了,但是我搜了一下互联网档案馆,是用的在 2016 年,我的博客中有两次保存。如下:

  

  单击上面的两个保存日期以查看您博客上的内容。不是很棒吗?这就是价值和意义。

  音频和视频

  音频它主要采集音乐和有声读物,而视频主要采集卡通和电影。可以尝试搜索一些比较难找的*敏*感*词*和视频,看看有没有收录,还能找到吗?

  软件和教材

  软件为收录软件,教材为部分高校的公开课,包括视频和文字资料。

  从上面的简单介绍,你觉得互联网档案馆是个怀旧的好地方吗?

  之所以今天介绍和提到Internet Archive,是因为他们最近有新动作。

  网站主管 Mark Graham 表示,Internet Archive 的 收录 内容继续增长,包括超过 400 万本书和 3390 亿个网页。但是最近网站 推出了 Commodore 64 模拟器,理论上里面的每个软件(包括几个经典游戏)都经过了广泛的测试,应该可以像往年一样工作。

  

  如果您想加载最喜欢的 Commodore 64 程序,只需在 Internet Archive 的库中找到并单击,即可立即穿越时空,重温 Commodore 64 上的 10,500 个程序。当然,这个数字未来还会继续增加。

  我们来个简单的截图看看:

  

  以上任何一款游戏,你点进去,都可以玩。是怀旧的好地方吗?

  地址:

  科普:

  Commodore 64 在瑞典也被称为 C64、CBM 64 或 VIC-64,是 Commodore(1982 年 1 月)推出的一款 8 位家用电脑。Commodore 64 也是最畅销的吉尼斯世界纪录单机型号 Commodore 64 以其 64 KB(65,536 字节)的内存命名,是个人电脑历史的见证。整机配备 1541 单软盘驱动器、C2N 磁带驱动器、键盘和7个软件盘。

  互联网存档地址、门户:

  快点检查,你的东西是收录吗?去查之前记得转发我的文章给我个赞!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线