阿奇是第一个在互联网上自动索引匿名文件传输协议
优采云 发布时间: 2021-06-22 01:28阿奇是第一个在互联网上自动索引匿名文件传输协议
什么是搜索引擎?搜索引擎的历史搜索引擎(SearchEngine)是指按照一定的策略采集互联网上的信息,使用特定的计算机程序,将信息经过组织和处理后展示给用户,从而为用户提供搜索服务的系统。搜索引擎已经成为人们上网的必备工具之一。
一般来说,搜索引擎的工作模式是爬取网站,创建页面,处理网页,提供检索服务。每个独立的搜索引擎都有自己的蜘蛛(Spider),蜘蛛会沿着网页中的超链接不断地抓取网页。捕获的网页称为网页快照。由于超链接在互联网上被广泛使用,理论上大多数网页都可以从一定范围的网页中采集。搜索引擎抓取网页后,必须做大量的预处理工作才能提供检索服务。其中,最重要的是提取关键词并构建索引文件。其他包括删除重复的网页、分析超链接、计算网页的重要性等。当用户输入关键词进行搜索时,搜索引擎会从索引数据库中找到与关键词匹配的网页。为方便用户判断,除提供网页标题和网址外,还会提供网页摘要等信息。
1.搜索引用历史
Archie 是所有搜索引擎的鼻祖。它是由加拿大麦吉尔大学的学生 Ellen Tag、Peter Deutch 和 Bill Whelan 于 1990 年发明的。虽然当时www并没有被广泛使用,但是网络上的文件传输相当频繁,而且由于大量的文件分散在各个FTP主机上,查询起来非常不方便。 Alan Ntag 等人想开发一个可以通过文件名搜索文件的系统,所以 Archie 是一个可搜索的文件传输协议文件名列表,用户必须输入准确的文件名才能搜索,Archie,Archie 会告诉用户传输的是哪个文件协议地址可以下载文件。因此,Archie 是互联网上第一个自动索引匿名文件传输协议网站 文件的程序,但它不是真正的搜索引擎。因为阿奇很受欢迎,
受此启发,内华达大学的研究人员开发了 Veronica,一种 gopher 搜索工具。 Jughead 是后来的另一个 Gopher 搜索工具。
搜索引擎通常由爬虫、索引*敏*感*词*和查询检索器组成。用于检索信息的“机器人”程序像蜘蛛一样在互联网上爬行,因此搜索引擎的“机器人”程序被称为“蜘蛛”程序。
世界上第一个蜘蛛程序,由麻省理工学院的马修格雷开发的万维网漫游者,用于跟踪互联网的发展规模。起初只是用来统计互联网上的服务器数量,后来发展到抓取网址。
1994 年 7 月,卡内基梅隆大学的 Michael Malden 将 John Levitt 的蜘蛛程序引入他的索引程序并创建了 Lekos。同年4月,斯坦福大学博士生David Filo和美籍华人杨致远共同创建了超级目录索引雅虎,成功让搜索引擎的概念流行起来。从此,搜索引擎进入了高速发展时期。目前,互联网上有数百个同名搜索引擎,它们检索的信息量与以前不同。以谷歌为例,其数据库中存储的网页数量已达30亿!
2.几个搜索线索介绍
下面简单介绍几个常用的搜索引擎。
(1)谷歌
Google 搜索引擎界面如图 6-18 所示。 Google 最初是斯坦福大学的一个小项目。 1995年,博士生Larry Page开始学习搜索引擎设计,并于1997年9月15日注册域名。 1997年底,在Sergey Brin、Scott Hassan和Alan Strenberg的参与下,BachRub开始提供演示版谷歌的。 1999 年 2 月,Google 完成了从 Alpha 到 Beta 的过渡。
谷歌在页面排名、动态摘要、网页快照、每日刷新、多文档格式支持、地图库存词典跟踪等集成搜索、多语言支持、用户界面等功能创新方面的创新已经永久改变了搜索引擎定义。 2006年新版《韦氏大学词典》收录收录新词100多个。这本向来以保守严肃着称的词典,收录了互联网搜索引擎谷歌,意为“在互联网上快速查找信息”。
(2)百度
目前百度(www.baidu.)是全球最大的中文搜索引擎,其界面如图6-19所示。 2000年1月,前Infoseek高级工程师李彦宏与好友徐勇(加州大学伯克利分校博士后)在北京中关村创立百度。 2000年5月,百度开始为门户网站网站(如搜狐、新浪等)提供搜索技术服务,随后发布了百度测试版。 com搜索引擎,开始独立提供搜索服务。
(3)All网站
Alltheweb 诞生于 1999 年 5 月,是一款优秀的全文搜索引擎。除了常规网页,它还可以搜索新闻、图片、视频、音频等内容。其目标是成为世界上最大最快的搜索引擎,其界面如图6-20所示。
(4)Question.Com
问吧。 Com 是一个搜索引擎,可以搜索问题。用户可以输入问题并搜索所需的答案。界面如图6-21所示。
3.Search 引文分类
搜索引擎一般分为三类:全文索引引擎、目录索引和元搜索引擎。
(1)全文搜索引擎
全文搜索引擎是真正的搜索引擎,国外以谷歌为代表,国内以百度为代表。他们从互联网(主要是网页)中提取每条网站信息,建立数据库,检索符合用户查询条件的记录,并按一定顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可以分为两大类。一个自带的搜索程序,即“蜘蛛”程序或“机器人”程序,可以建立自己的网络数据库,搜索结果可以直接从自建数据库中调用。上面提到的谷歌和百度都属于这一类;另一种是租用其他搜索引擎的数据库,按照自己的格式排列搜索结果,比如Lycos搜索引擎。
(2)目录索引
顾名思义,目录索引将网站存储在不同类别的对应目录中。因此,用户在查询信息时可以选择关键词进行搜索,也可以根据分类目录逐层搜索。如果他们按关键词搜索,返回的结果和全文搜索引擎的结果是一样的,全文搜索引擎也是根据信息相关程度对网站进行排名(人为因素比较多) ).
如果按层级目录搜索,网站在目录中的排名由标题的字母顺序决定(有例外)。
与全文搜索引擎相比,目录索引有很多不同之处。
首先全文搜索引擎是自动网站搜索,目录索引的建立完全靠人工操作。用户提交网站后,目录编辑会亲自浏览用户的网站,然后根据一套自行确定的评价标准甚至编辑的主观印象来决定是否接受用户的网站。其次,当搜索引擎收录网站时,只要网站不违反相关规则,一般都能登录成功,但对网站的目录索引要求要高很多,有时甚至你登录多次也可能不成功。另*敏*感*词*。
(3)meta 搜索引擎
元搜索引擎(MetaSearchEngine),在接收到用户的查询请求后,同时在多个搜索引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎包括信息空间、勾装和Vivis。中文元搜索引擎的典型代表是搜索名人的搜索引擎。在搜索结果的排列上,有的直接按照搜索结果的来源进行排列,比如Dogpile,有的则是按照自己的规则排列组合,比如Vivisimo。目前,搜索引擎正处于快速发展阶段,各大大型搜索引擎都基于分布式计算。
简而言之,分布式系统是由多个服务器组成的系统,可以检索大量信息。例如,谷歌由数万台服务器组成,以提供更好的检索和恢复能力。弹性是指服务器在几秒钟内处理大量并发请求的能力。
目前搜索引擎技术的主要发展空间在于搜索的准确性,这与自然语言研究的进展密切相关,除了传统的页面排名算法(指搜索结果的排名规则),比如页面排名,山顶等等。