淘宝搜索引擎优化ppt( 如何建立搜索引擎就是解决这个问题的最好方法?论文就是)
优采云 发布时间: 2021-11-23 16:03淘宝搜索引擎优化ppt(
如何建立搜索引擎就是解决这个问题的最好方法?论文就是)
简述搜索引擎的结构和分类
摘要:网络中的资源非常丰富,但如何有效地搜索信息却是一件困难的事情。构建搜索引擎是解决这个问题的最好方法。本文简要介绍了基于互联网的搜索引擎的体系结构和我们常见的搜索引擎分类
介绍
面对海量的网络资源,搜索引擎为所有上网的用户提供了一个入口。可以毫不夸张地说,所有用户都可以从搜索开始,到达互联网上任何他们想去的地方。因此,它已成为除电子邮件外最常用的在线服务。
搜索引擎技术随着WWW的发展而引人注目。搜索引擎大概经历了三代更新和发展: 第一代搜索引擎出现在1994年,这类搜索引擎一般索引不到100万个网页,很少重新采集网页和刷新索引。而且检索速度很慢,一般要等10秒甚至更长时间。在实现技术上,基本采用了较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于现有的一些技术在WWW上实现的应用。从 1994 年 3 月到 4 月,网络爬虫 World Web Worm (WWWW) 平均每天收到大约 1,500 次查询。
1996 年出现的第二代搜索引擎系统大多采用分布式解决方案(多台微机协同工作),以增加数据量、响应速度和用户数量。他们通常维护大约 50,000,000 个网页的索引。该数据库每天可以响应 10,000 个用户搜索请求。1997 年 11 月,几个当时最先进的搜索引擎声称能够建立从 2,000,000 到 100,000 的网络索引。Altavista 搜索引擎声称他们每天收到大约 20,000 个查询。
在 2000 年的 2000 年搜索引擎大会上,根据总裁拉里佩奇的演讲,谷歌正在使用 3000 台运行 Linux 系统的个人计算机来采集 Web 上的网页,并以每天 30 台的速度向这个微型计算机集群添加计算机. 跟上网络的发展步伐。每台电脑运行多个爬虫,以每秒100个网页的峰值速度采集网页,平均速度为每秒48.5个网页,一天可以采集超过400万个网页
搜索引擎这个词在*敏*感*词*互联网领域被广泛使用,但其含义不同。在美国,搜索引擎通常是指基于互联网的搜索引擎。他们通过互联网机器人采集数千万到数亿的网页,每个词都被搜索引擎索引。他们通过互联网机器人采集数千万到数十万页。数以亿计的网页,每一个词都被搜索引擎收录,这就是我们所说的全文搜索。著名的互联网搜索引擎包括First Search、Google、HotBot等。在中国,搜索引擎通常是指基于网站目录的搜索服务或特定的网站搜索服务。
搜索引擎的结构
搜索引擎是根据用户的查询请求,按照一定的算法从索引数据中查找信息并返回给用户。为了保证用户找到的信息的准确性和新鲜度,搜索引擎需要建立和维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引和搜索程序、索引数据库组成。
那么我们来详细介绍一下网络机器人、索引和搜索以及网络服务器,因为这是搜索引擎结构的重要组成部分。
第一个是网络机器人
网络机器人又称“蜘蛛”,是一款功能强大的WEB扫描程序。它可以在扫描WEB页面的同时检索其中的超链接,并加入扫描队列等待以后的扫描。由于超链接在WEB中被广泛使用,一个Spider程序理论上可以访问整个WEB页面。
为了保证网络机器人遍历信息的广度和深度,需要设置一些重要的环节并制定相关的扫描策略。
然后索引和搜索