搜索引擎优化毕业论文(浅析搜索引擎的原理及发展前景[摘要](图))
优采云 发布时间: 2021-11-06 15:05搜索引擎优化毕业论文(浅析搜索引擎的原理及发展前景[摘要](图))
搜索引擎原理及发展前景分析
[摘要]文章 简述搜索引擎的定义和服务方式,以及搜索引擎的发展、工作原理和性能指标,分析搜索引擎面临的挑战,简要阐述搜索引擎的特点.
[关键词]搜索引擎;信息检索
信息技术的不断发展,特别是互联网应用的迅速普及,已经渗透到人们生活的方方面面,改变了人们的生活方式和思维方式,促进了全球信息资源的共享。目前全球有超过100亿个网页,每天新增数百万个新网页,电子信息爆炸式丰富。在如此浩瀚的海洋中寻找信息,犹如大海捞针。有没有什么工具可以让我们在不到 1 秒的时间内快速找到我们想要的东西?答案是肯定的,这就是搜索引擎。如今,搜索引擎已经成为人们在网络信息的海洋中自由冲浪不可或缺的利器。
搜索引擎是指在WWW(万维网)环境中能够响应用户提交的搜索请求并返回相应查询结果信息的技术和系统。它们是网上查询网站或网页信息的工具。包括信息采集、信息整理、用户查询三部分。搜索引擎服务分为两类:目录服务和关键字检索服务。目录服务是分类专家将网络信息按照主题分为几大类,用户可以根据分类清晰的找到自己需要的内容。关键字搜索服务可以搜索收录一个或多个特定关键字或短语的 WWW 站点。搜索引擎是互联网的第二核心技术,
1 搜索引擎的发展
1990年以前,没有人能够实现搜索互联网的功能。在互联网的早期,信息量很小,大多数互联网用户都是专业人士。那个时候,找资料比较容易。随着互联网的爆发式发展,普通网民想要找到自己需要的信息就像大海捞针。这时,一个满足公共信息检索需求的搜索引擎应运而生。所有搜索引擎的祖先都可以追溯到1990年由蒙特利尔麦吉尔大学的Alan Emtage、Peter Deutsch和Bill Wheelan发明的Archie(Archie FAQ)。 虽然当时万维网还没有出现,因为当时互联网的主要目的是传输文件,Internet 上的文件传输仍然非常频繁。由于大量的文件分散在各个分散的FTP主机上,查询起来非常不方便,于是Alan Emtage想到了开发一个可以通过文件名搜索文件的系统,于是Archie就诞生了。
1993 年,内华达大学系统计算服务公司开发了一个与 Archie 非常相似的搜索工具。该搜索工具可以检索文件和网页。
1994年4月,斯坦福大学的两位博士生David Filo和华裔美国人Gerry Yang共同创立了超级目录索引雅虎,成功地让搜索引擎的概念深入人心。从此,搜索引擎进入了高速发展时期。
1998 年,斯坦福大学的两位博士生拉里·佩奇和谢尔盖·布林开发了世界上最大的搜索引擎——谷歌。通过组织超过 20 亿个网页,谷歌可以为全球用户提供他们需要的搜索结果,搜索时间通常不到半秒。现在,谷歌每天需要为来自世界各地的用户提供1.5亿查询服务。
1997年10月29日,北京大学天网正式向CERNET上的广大网民提供Web信息导航服务。是北京大学计算机系网络与分布式系统研究室开发的国家“九五”重点科技攻关项目。“编码与分布式中英文信息发现”的研究成果得到了学术界的广泛赞誉。
2000年1月,两位北大校友、前Infoseek高级工程师李彦宏和加州大学伯克利分校博士后徐勇在北京中关村创立百度。经过五年的高速发展,近两年百度已经跻身全球网站流量前八,成为全球前十的网站之一。百度每天接收来自各种来源的内容检索请求超过 1 亿次,中国 9400 万网民几乎每天使用一次百度。“有问题就百度”已经成为中国互联网流行语之一。
2002年,中国搜索(原慧聪搜索)正式进入中国搜索引擎市场。一年多来,已发展成为全球知名的中文搜索引擎服务商,为新浪、搜狐、网易、TOM等知名门户网站提供搜索引擎技术。慧聪搜索引擎的优势在于从两个方面入手:人工审核网站信息源,设置禁词,有效过滤不良信息,减少垃圾内容。在互联网实时新闻搜索方面,慧聪网也实现了在线新闻的实时搜索。
2 搜索引擎的工作原理
简单的说,搜索引擎通过从互联网上提取各种网站信息来构建数据库,检索出符合用户查询条件的相关记录,然后将结果按照一定的顺序返回给用户。
根据从搜索引擎中提取数据的方式,搜索引擎系统可以分为三类:
2.1 目录搜索引擎:是一个网站级别的搜索引擎。目录搜索引擎被分类专家按照主题划分为几个大类,每个大类又细分为若干个子类,依次细分。一般的搜索引擎分类系统有五六层,有的甚至超过十层。地面。首先由程序自动采集信息,然后编辑人员查看信息,人工形成信息汇总,并提供目录浏览服务和直接检索服务。由于目录搜索引擎的信息分类和信息采集是人的参与,其搜索的准确度是相当高的。缺点是需要人工干预,维护量大,信息量小,信息更新不及时。雅虎是这类搜索引擎的代表。
2.2 机器人搜索引擎:机器人这个词大家都很熟悉。计算机机器人是指能够以人类无法达到的速度重复执行某项任务的自动程序。因为专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络上爬行,所以搜索引擎的Robot程序被称为蜘蛛程序。搜索引擎会主动发出一个叫Spider的机器人程序定时搜索(比如谷歌一般需要28天)在一定IP地址范围内搜索互联网网站。一旦发现新的网站,它会自动提取网站的信息和URL,并添加到自己的数据库中。这种搜索引擎的优点是信息量大,更新及时,并且不需要人工干预。缺点是返回的信息太多,收录了很多不相关的信息。用户必须从结果中过滤。谷歌、北大天网、百度就是这类搜索引擎的代表。
2.3元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时提交给多个预选的独立搜索引擎,返回的结果被反复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回的信息量更大、更完整,但缺点是用户需要做更多的筛选。第一个元搜索引擎是由 Eric Selberg 和华盛顿大学硕士生 Oren Etzioni 开发的 Metacrawler。元搜索引擎的搜索效果一直不尽如人意,所以从来没有一个元搜索引擎占据过强势地位。ByteSearch()、Mamma()、Profusion() 是这类搜索引擎的代表。
3 搜索引擎性能指标
搜索引擎的目标是在很短的时间内搜索到全面准确的信息。传统信息检索系统的性能参数——召回率和准确率也可以衡量搜索引擎的性能。
召回率是检索到的相关文档数与文档库中所有相关文档数的比值。它衡量检索系统(搜索引擎)的召回率;准确率是检索到的相关文档数与总检索到的文档数之比,衡量检索系统(搜索引擎)的准确率。对于一个检索系统,查全率和查准率不可能两全其美:查全率高,查准率低;当精度高时,召回率低。因为没有搜索引擎系统可以采集所有的WEB页面,召回率很难计算。对于网民来说,网络上的信息不是不足,而是“过剩”。如何准确查找信息是大家关心的问题。所以,
4 搜索引擎面临的挑战
目前,搜索引擎是互联网上使用最频繁的服务之一。随着互联网的强劲发展,互联网上海量的数字信息与人们获取所需信息的能力之间的矛盾日益突出。(IDC)发布报告显示,被大肆宣传“使用方便、搜索结果丰富”的搜索引擎技术正在被更集中的局域网所取代,因为大多数搜索系统的性能与用户预期不符. 太大了,随着数据量的快速增长,对视频、音频等多媒体信息的检索仍然是一个无法破解的难题。搜索引擎越来越不能满足挑剔的网民的各种信息需求。这表现在以下几个方面:
采集的网页数量与其数据库更新速度之间存在不可调和的矛盾。用户通常无法打开查询结果。网络信息无时无刻不在变化,实时搜索几乎是不可能的。甚至您刚刚浏览的网页也可能随时更新、过期或删除。采集和整理网络信息是搜索引擎工作的重要组成部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网速不理想。遍历如此复杂的网络需要大量的时间。这就是不能进行实时搜索的原因。