搜索引擎优化入门与进阶(**章网络爬虫策略可能有不少读者(图))

优采云发布时间: 2021-11-21 10:18

　　**章节

　　网络爬虫策略

　　很多读者可能经常听到自己的朋友谈论搜索引擎和网络爬虫，但他们不知道搜索引擎的起源，搜索引擎的概念是什么，或者网络爬虫是什么。其实在日常生活中，我们经常会用到这些知识。例如，大多数人习惯于使用“百度”或“谷歌”来查询我们想知道的任何内容和知识。其中，使用了搜索。引擎和网络爬虫，他们是怎么做的？你觉得它神奇而深不可测吗？带着这些疑问，让我们一起走进这个神秘的世界。本章将从一些基本概念开始，从了解爬虫开始，然后了解搜索引擎的新兴技术领域，逐步深入。在理解概念的基础上，

　　1.1 信息时代的飞跃

　　1.1.1 搜索引擎的出现

　　细心的读者可能会发现，其实很多新名词的出现，都伴随着一个美丽动人的故事，或者幽默感人的故事。那么词搜索引擎的诞生是一样的吗？

　　根据国家科学技术术语审查委员会的审查，该搜索引擎引入的中文**名称为“Search Engine”，英文**名称为“Search Engine”，委员会还对其进行了科学和简要定义：万维网环境中的信息检索系统（包括目录服务和关键字检索两种服务模式）。那么搜索引擎是如何发展起来的呢？下面我们就从它的起源故事说起。故事发生在加拿大蒙特利尔麦吉尔大学的校园，一座典型的英法双语城市，被誉为北美“浪漫之都”。那是20世纪初。那个时候还没有万维网（WWW），而共享软件的主要工具是FTP（文件传输协议）软件。为了共享软件，必须有一个FTP服务器。同时，为了检索FTP数据，还必须有一个FTP客户端。当时，大量的数据是零散分布的。虽然互联网可以为该软件提供信息服务，但用户缺乏直接查询FTP**地址的工具。麦吉尔大学计算机学院的三位同学（Alan Emtage、Peter Deutsch、Bill Wheelan），为了方便查询FTP**地址，想到了开发一个可以查询**的系统部分按 ** 部分名称，因此 Archie 系统诞生了。Archie系统实现了自动索引互联网上匿名免费FTP软件信息的功能，并提供了根据软件名称查询软件FTP地址的方法。虽然在搜索过程中需要用户输入** **文件名，但会告诉用户哪个FTP地址可以下载；虽然它没有**机器人（Robot）程序，只能搜索FTP**文件资源，但是它的出现实现了自动采集信息资源、建立索引、提供检索服务的功能，开启了搜索引擎。毫无疑问，阿奇已经成为搜索引擎的鼻祖。虽然它没有**机器人（Robot）程序，只能搜索FTP**文件资源，但是它的出现实现了自动采集信息资源、建立索引、提供检索服务的功能，开启了搜索引擎。毫无疑问，阿奇已经成为搜索引擎的鼻祖。虽然它没有**机器人（Robot）程序，只能搜索FTP**文件资源，但是它的出现实现了自动采集信息资源、建立索引、提供检索服务的功能，开启了搜索引擎。毫无疑问，阿奇已经成为搜索引擎的鼻祖。

　　Archie系统的出现，在全球信息时代的浪潮中引起了极大的反响，受到了大家的好评。同时，受其影响和启发，内华达大学系统计算服务公司于1993年开发了Gopher（Gopher FAQ）搜索工具Veronica（Veronica FAQ）。Veronica提供了大量的资源服务器查询功能，可以实现标题关键词的查询，在Veronica中，用户可以使用布尔关键字表达式、Veronica特殊命令等方式，通过Gopher客户端接入软件进行查询。没有 ** 像 Archie 系统，需要完整的 ** 名称才能完成搜索。除了查询大量本地数据外，还可以通过其他类型的信息服务器（如WWW服务器、用户文件、远程访问信息服务器等）。搜索结果列表收录由信息项的标题指定的信息。同时，结果菜单可以像任何其他工具菜单一样自由浏览，大大拓宽了查询的宽度和广度，也给用户的查询带来了极大的方便。Veronica发展到1995年1月，提供了5057台Gopher服务器的索引，其中WWW服务器3905台，Telnet服务器约1000台。几乎每个项目都收录在 Gopher 服务器提供的索引中，虽然 WWW 服务器当时的内容并不是详尽的索引，但是这些服务器都引用了一些 Gopher 服务器的菜单。结果菜单可以像任何其他工具菜单一样自由浏览，大大拓宽了查询的宽度和广度，也给用户的查询带来了极大的方便。Veronica发展到1995年1月，提供了5057台Gopher服务器的索引，其中WWW服务器3905台，Telnet服务器约1000台。几乎每个项目都收录在 Gopher 服务器提供的索引中，虽然 WWW 服务器当时的内容并不是详尽的索引，但是这些服务器都引用了一些 Gopher 服务器的菜单。结果菜单可以像任何其他工具菜单一样自由浏览，大大拓宽了查询的宽度和广度，也给用户的查询带来了极大的方便。Veronica发展到1995年1月，提供了5057台Gopher服务器的索引，其中WWW服务器3905台，Telnet服务器约1000台。几乎每个项目都收录在 Gopher 服务器提供的索引中，虽然 WWW 服务器当时的内容并不是详尽的索引，但是这些服务器都引用了一些 Gopher 服务器的菜单。

　　但随着WWW服务器的出现及其便捷和速度的出现，Gopher服务器失去了昔日的辉煌。只能提供这种查询，已经不能满足越来越现代信息化发展的需要。渐渐地，Gopher 服务器淡出。同时，随着信息时代的飞速发展，搜索引擎的发展也日新月异，正在发生翻天覆地的变化。对于当时的程序员来说，Robot（机器人）无疑是一个很大的话题。计算机机器人是指能够以人类无法达到的速度重复执行某项任务的自动程序。因为Robot程序可以像蜘蛛一样在互联网之间爬来爬去，于是，搜索引擎的Robot程序——蜘蛛程序就出现了。1993年，基于实现Robot的想法，Matthew Gray 开发了 Worldwide Web Wanderer，这也成为世界上第一个跟踪互联网发展规模的 Spider 程序。起初，它只是简单地统计互联网上的服务器数量。随着时间的推移，它逐渐发展成为一种可以捕获 URL 的工具。最早的现代搜索引擎出现在1994年。当年4月，美国斯坦福大学的两名博士生Jerry Yang和David Filo共同创立了超级目录搜索工具雅虎！. 两位来自斯坦福大学的博士生，美籍华人杨致远和大卫·菲洛共同创立了超级目录搜索工具雅虎！. 两位来自斯坦福大学的博士生，美籍华人杨致远和大卫·菲洛共同创立了超级目录搜索工具雅虎！.

　　雅虎！最初它只支持简单的数据库搜索，需要手动输入数据。很多人认为它不是一个搜索引擎，而只是一个可搜索的目录，但与 Yahoo! 搜索引擎的发展成功地将搜索引擎的概念注入了人们的心中。从此，搜索引擎进入了快速发展的时代。也是在1994年初，华盛顿大学的学生Brian Pinkerton开始了他的小项目WebCrawler，它成为了互联网上支持搜索所有**词的**全**搜索引擎。打破了以往只能通过网址和摘要进行搜索的局限，使搜索引擎越来越完善。同年7月，卡内基梅隆大学的 Michael Mauldin 将蜘蛛程序植入其索引程序并创建了 Lycos。其最突出的特点是实现了大量数据的搜索，还能进行相关性排序，还提供前缀匹配和字符相似度限制。Lycos 成为第一个在搜索结果中实现网页自动汇总的搜索工具。1994年底，Infoseek出现。它提供了友好的界面和大量的附加功能。它的出现和发展是搜索引擎发展史上的一个重要里程碑。Lycos 成为第一个在搜索结果中实现网页自动汇总的搜索工具。1994年底，Infoseek出现。它提供了友好的界面和大量的附加功能。它的出现和发展是搜索引擎发展史上的一个重要里程碑。Lycos 成为第一个在搜索结果中实现网页自动汇总的搜索工具。1994年底，Infoseek出现。它提供了友好的界面和大量的附加功能。它的出现和发展是搜索引擎发展史上的一个重要里程碑。

　　随后，搜索引擎稳步快速发展。1995年，华盛顿大学的两位*敏*感*词*Eric Selberg和Oren Etzioni共同开发了Metacrawler，开创了搜索引擎的新形态——A Meta Search Engine Roundup。在这个搜索引擎中，当用户提交搜索请求时，元搜索引擎会对其进行转换并提交给多个独立的搜索引擎，然后返回查询结果，**集中处理后返回给用户。同年12月，美国DEC公司正式发布AltaVista。AltaVista 实现了自然语言搜索，成为实现**搜索语法（如AND、OR、NOT等）的**搜索引擎。用户可以通过 AltaVista 搜索新闻组的内容，并从互联网上获取章节。他们还可以搜索图片名称中的单词、标题、Java 小程序和 ActiveX 对象。AltaVista也是第一个支持用户自行提交或删除网址到网页索引库的搜索引擎，24小时内即可上线。它还提供了一个有趣的功能，即搜索所有具有指向某个 URL 的链接的网站。在面向用户方面，AltaVista还提供了更加人性化的界面，大大增加了用户的兴趣。这些功能也被其他搜索引擎广泛使用。1997 年，AltaVista 发布了图形呈现系统 LiveTopics，帮助用户从数千个搜索结果中找到他们想要的内容。随后，搜索引擎以更加惊人的速度发展。同样在1997年，出现了Northernlight搜索引擎，以及现在众所周知的谷歌。2006年，谷歌宣布将**命名为“谷歌”。后来，随着搜索引擎技术的不断完善和成熟，中国也出现了搜狐、百度、IG、爱文等热门搜索引擎。

　　搜索引擎的出现和发展，无疑成为信息**的重要组成部分。它的发展让我们领略了搜索引擎的巨大变化和改进，也给我们的日常生活带来了便利。在现代生活中，搜索引擎已经深入千家万户，成为人们不可或缺的工具。他所使用的工具之一，没有了它，生活似乎失去了光彩。搜索引擎的发展历史很有趣。更详细的发展历程，这里就不详细解释了。有兴趣的读者可以参考相关文章。

　　关于蜘蛛程序，相信很多人都想知道它的历史和发展吧？我们将在下一节回顾这一有趣的发展。

　　1.1.2 搜索网络爬虫的由来

　　1.？有趣的小故事

　　Spider程序在上一节中提到过。实际上，Spider只是个别爬虫的名称，并不是指网络爬虫。网络爬虫也称为网络蜘蛛。网络蜘蛛是一个非常形象的名字。如果把互联网比作蜘蛛网，那么蜘蛛就是在网上爬行的蜘蛛。通常人们更喜欢称它为网络爬虫，在本章的其余部分，它也将被称为网络爬虫。

　　其实说到网络爬虫就不得不谈搜索引擎，因为网络爬虫的出现与搜索引擎息息相关。真正意义上的搜索引擎的兴起，也源于网络爬虫的出现。下面，让我们简单分享一下这段有趣的历史。搜索引擎自动从互联网上采集信息，并经过有效整理后提供给用户查询。从1990年开始，搜索引擎逐渐成为人们生活中不可或缺的一部分。它经历了太多的技术和概念变化。1994年以来，雅虎、谷歌、百度等一系列搜索引擎公司逐渐诞生。那个时候还没有万维网。人们需要在蜘蛛程序中手动搜索网页。然而，随着信息时代的不断发展，网页的数量和数据信息量越来越大，搜索时间也越来越长。如何缩短时间快速找到答案成为人们研究的重点。

　　网络爬虫的出现也标志着现代意义上的搜索引擎的形成。它实际上是使用计算机来实现以前的手动搜索，但其速度会比手动快很多，并且可以快速不间断地执行某项搜索任务。这种搜索技术像蜘蛛一样在网络上爬行，对需求的响应迅速且不间断，所以后来人们称它为“蜘蛛程序”，由此产生了网络爬虫。

　　网络爬虫利用html**文件之间的链接关系在网页之间进行爬取，并将这些网页抓取到系统中进行分析，然后放入数据库中。从最初的服务器数量统计到后续抓取网址，现代搜索引擎也因网络爬虫的不断完善和改进而得到快速发展。

　　2.？小案例展示

　　经过初步的介绍，相信大家对网络爬虫有了概念上的了解和认识。接下来，我们将通过一个简单的Java小程序与大家分享网络爬虫的应用。需要说明一下，这个Java程序的HttpClient包的版本是4.0.1。可能很多朋友和作者一样吧。之前我用的是3.1的版本，这两个版本有一定的区别，本章第4节会详细讨论。

　　以下是编写这个小程序的大致步骤，如下：

0

2021-11-21

搜索引擎优化入门与进阶

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化入门与进阶(**章网络爬虫策略可能有不少读者(图))

0 个评论

发起人