英法双语城市蒙特利尔（Montreal）第1章网络爬虫策略

优采云发布时间: 2021-05-03 18:12

　　第1章

　　网络爬虫策略

　　也许有很多读者经常听到他们的朋友谈论搜索引擎和网络爬虫，但是他们不知道搜索引擎的起源，搜索引擎的概念是什么，或者网络爬虫是什么。实际上，在日常生活中，我们经常使用这种知识。例如，大多数人习惯于使用“百度”或“谷歌”来查询我们想知道的任何内容和知识。在搜索引擎和Web采集器中，它们是如何做到的？你觉得它神奇而深不可测吗？带着这些问题，让我们一起进入这个神秘的世界。本章将从一些基本概念开始，首先是对爬虫的理解，然后是对搜索引擎新兴技术领域的了解，并逐步深入。在理解概念的基础上，本章还将显示两个经典的小例子，希望为后续的学习奠定Lucene的理论基础。

　　1. 1信息时代的飞跃

　　1. 1. 1搜索引擎的出现

　　细心的读者可能会发现，实际上，许多新术语的出现伴随着一个美丽，动人或幽默的，令人印象深刻的故事。那么单词搜索引擎的诞生是一样的吗？

　　根据国家科学技术术语审查委员会的审查，由搜索引擎引入的中文名称为“搜索引擎”，其英文名称为“搜索引擎”，该委员会还对其进行了科学，简短的介绍。定义：万维网环境信息检索系统（包括两种服务模式：目录服务和关键字检索）。那么搜索引擎是如何发展的呢？这里将从其起源故事开始。故事发生在加拿大蒙特利尔的麦吉尔大学的校园内，加拿大是典型的英法双语城市，被誉为北美的“浪漫之都”。那是20世纪初，当时没有万维网（WWW），并且用于共享文件的主要工具是FTP（文件传输协议）软件。为了共享文件，您必须具有FTP服务器。同时，为了检索FTP数据，您还必须具有FTP客户端。那时，大量数据分散并散布。尽管Internet可以提供文件信息服务，但用户缺乏直接查询。 FTP文件地址工具，麦吉尔大学（McGill大学）计算机科学学院的三名学生（Alan Emtage，Peter Deutsch，Bill Wheelan）为了方便查询FTP文件的位置，他们想到了开发一种FTP文件地址工具。可用于查询文件的文件名。系统，而Archie系统就此诞生。 Archie系统实现了Internet上对匿名的免费FTP文件信息的自动索引功能，并提供了一种基于文件名查询文件的FTP地址的方法。尽管在搜索过程中，它要求用户输入正确的文件名，但它会告诉用户可以下载哪个FTP地址。尽管它没有机械手（Robot）程序，但只能搜索FTP文件资源，但是它的出现使它成为可能。自动采集信息资源，建立索引以及提供搜索服务的功能开启了搜索引擎的时代。毫无疑问，阿奇已经成为搜索引擎的鼻祖。

　　Archie系统的出现引起了全球信息时代浪潮的巨大反响，并受到了所有人的欢迎。同时，在其影响和启发下，内华达大学系统计算服务公司于1993年开发了Gopher（Gopher FAQ）搜索工具Veronica（Veronica FAQ）。Veronica提供了大量资源服务器查询功能，可以实现这些功能对于标题关键字的查询，在Veronica中，用户可以使用包括布尔关键字表达式，特殊Veronica命令等在内的方法来通过Gopher客户端访问软件进行查询。不再像Archie系统一样，需要完整的文件名才能完成搜索。除了查询大量本地数据*敏*感*词*和宽度，也为用户的查询带来了极大的便利。 Veronica开发到1995年1月，已经提供了5,057个Gopher服务器索引，其中包括3905个WWW服务器和大约1,000个Telnet服务器。即使当时的WWW服务器的内容也不是详尽的索引，但是Gopher服务器提供的索引中几乎收录了每个项目。但是这些服务器都引用了某些Gopher服务器菜单。

　　但是，随着WWW服务器的出现及其便利性和速度，Gopher服务器失去了昔日的辉煌。它只能提供文本查询，不能再满足越来越多的现代信息开发的需求。 Gopher服务器逐渐淡出。同时，随着信息时代的飞速发展，人们的视线也不断变化，搜索引擎的发展也在日新月异，翻天覆地的变化也发生了。对于当时的程序员来说，Robot（robot）无疑是一个大话题。计算机机器人是指可以以人类无法达到的速度重复执行某些任务的自动程序。由于机器人程序可以像蜘蛛一样在互联网之间上下爬行，因此，出现了搜索引擎的机器人程序-蜘蛛程序。 1993年，基于实现机器人的想法，马修·格雷开发了Worldwide Web Wanderer，它也成为了世界上第一个蜘蛛程序，目的是追踪互联网的发展规模。最初，它只是计算Internet上的服务器数量。随着时间的流逝，它逐渐发展成为可以捕获URL的工具。最早的现代搜索引擎出现于1994年。那年4月，来自斯坦福大学的两名博士生，华裔美国人杨致远和戴维·费罗共同创立了超级目录搜索工具Yahoo!。

　　Yahoo！最初，它仅支持简单的数据库搜索，并且需要手动输入数据。许多人认为它不是搜索引擎，而是可搜索的目录，但是使用Yahoo!。它的发展成功地将搜索引擎的概念注入了人们的心中。从那时起，搜索引擎进入了快速发展的时代。同样在1994年初，华盛顿大学的学生Brian Pinkerton开始了他的小型项目WebCrawler，它成为互联网上第一个支持所有搜索内容的全文本搜索引擎。它打破了以前仅通过URL和摘要进行搜索的限制，使搜索引擎变得越来越完美。同年7月，卡内基梅隆大学的Michael Mauldin将蜘蛛程序植入其索引程序中并创建了Lycos。其最显着的特点是实现大量数据搜索，还实现了相关的性排序，还提供了前缀匹配和字符相似性限制，Lycos成为第一个在搜索结果中实现网页自动汇总的搜索工具。 1994年底，Infoseek出现了。它提供了友好的界面和大量附加功能。它的出现和发展是搜索引擎发展史上的重要里程碑。

　　随后，搜索引擎稳步发展。 1995年，华盛顿大学的两名*敏*感*词*Eric Selberg和Oren Etzioni共同开发了Metacrawler，从而创造了一种新的搜索引擎形式-Meta Search Engine综述。在此搜索引擎中，当用户提交搜索请求时，元搜索引擎将对其进行转换并将其提交给多个独立的搜索引擎，然后返回查询结果，然后在进行集中处理后返回给用户。同年12月，美国DEC Corporation正式发布了AltaVista。 AltaVista已经实现了自然语言搜索，并成为第一个实现高级搜索语法（例如AND，OR，NOT等）的搜索引擎。用户可以通过AltaVista搜索新闻组的内容，并从Internet上获取新闻组的内容文章，还可以在图片名称中搜索文本，标题，Java applet和ActiveX对象。 AltaVista还是第一个支持用户自己提交或删除Web索引库URL的搜索引擎，它可以在24小时内联机。它还提供了一个有趣的功能，即搜索指向URL 网站的所有链接。在面向用户方面，AltaVista还提供了更加用户友好的界面，这极大地增加了用户的兴趣。这些功能也被其他搜索引擎广泛使用。 1997年，AltaVista发布了图形演示系统LiveTopics，以帮助用户从数千个搜索结果中找到所需的内容。随后，搜索引擎以惊人的速度迅速发展。同样在1997年，Northernlight搜索引擎以及现在众所周知的Google出现了。 Google在2006年宣布了中文名称“ Google”。后来，随着搜索引擎技术的不断完善和成熟，中国也出现了搜狐，百度，IG和爱文等流行的搜索引擎。

　　搜索引擎的出现和发展无疑已经成为信息革命中的重要革命。它的发展使我们领略了搜索引擎的巨大变化和改进，也为我们的日常生活带来了便利。在现代生活方面，搜索引擎已经渗透到成千上万的家庭中，对于人们来说是必不可少的。没有它的工具之一，似乎生活已经失去了光泽。搜索引擎的发展历史很有趣。有关更详细的开发历史，我将不在这里详细解释。有兴趣的读者可以参考相关文献。

　　关于蜘蛛程序，我相信很多人都想知道它的历史和发展，对吗？我们将在下一部分中回顾这一有趣的发展。

　　1. 1. 2搜索网络采集器的起源

　　1.？有趣的小故事

　　上一节提到了Spider程序。实际上，Spider只是单个爬网程序的名称，它并不涉及Web爬网程序。网络采集器也称为网络蜘蛛。 Web Spider，或Web Spider，是一个非常生动的名称。如果将互联网比作蜘蛛网，那么蜘蛛就是在网上爬行的蜘蛛。通常，人们更喜欢将其称为网络爬虫，在本章的其余部分中，也将其称为网络爬虫。

　　实际上，当涉及到网络爬虫时，您必须谈论搜索引擎，因为网络爬虫的出现与搜索引擎密切相关。真正意义上的搜索引擎的兴起也源于网络爬虫的出现。下面，让我们简要分享这个有趣的历史。搜索引擎会自动从Internet采集信息，并在进行有效排序后将其提供给用户以进行查询。自1990年初以来，搜索引擎已逐渐成为人们生活中不可或缺的一部分。它经历了太多的技术和概念更改。自1994年以来，雅虎，谷歌和百度等一系列搜索引擎公司逐渐诞生。那时，没有万维网。人们需要在蜘蛛程序中手动搜索网页。但是，随着信息时代的不断发展，网页数量和数据信息量越来越大，搜索时间越来越长。如何缩短快速找到答案的时间已经成为人们研究的重点。

　　网络爬虫的出现也标志着现代意义上搜索引擎的形成。它实际上是使用计算机来实现以前的手动搜索，但是它的速度将比手动快得多，并且它可以快速，不间断地执行特定的搜索任务。这种搜索技术像蜘蛛一样在网络上爬行，对需求进行快速，不间断的响应，因此人们后来将其称为“蜘蛛程序”，由此诞生了网络爬虫。

　　Web爬网程序使用html文档之间的链接关系在网页之间进行爬网，将这些网页捕获到系统中进行分析，然后将其放入数据库中。从最初的服务器数量到随后的URL捕获，由于网络爬虫的不断改进和改进，现代搜索引擎也得到了飞速发展。

　　2.？小案例展示

　　在最初介绍之后，我相信每个人都对Web爬虫有一个概念上的理解和理解。接下来，我们将通过一个简单的Java小程序与您共享Web爬网程序的应用程序。需要说明的是，此Java程序的HttpClient软件包的版本为4. 0. 1。也许很多朋友都和作者一样。以前的版本是3. 1。两种版本之间存在某些差异。我们将在本章第1. 4节中与您进行分析和讨论，因此在此不再详细说明。

　　下面是编写此小程序的步骤的粗略清单，如下所示：

0

2021-05-03

搜索引擎优化入门与进阶

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

英法双语城市蒙特利尔（Montreal）第1章网络爬虫策略

0 个评论

发起人