搜索引擎发展背景、分类及特点,搜索引擎介绍2.1介绍

优采云 发布时间: 2021-08-13 19:01

  搜索引擎发展背景、分类及特点,搜索引擎介绍2.1介绍

  本章介绍了搜索引擎的发展背景、分类和特点,然后详细解释了搜索引擎的工作原理和工作流程,最后结合实例介绍了几种常见的搜索引擎。搜索引擎介绍2.1 搜索引擎介绍 搜索引擎出现的背景在互联网发展初期比较小,新闻搜索比较容易。但是,随着新闻技术的飞速发展,特别是互联网应用的迅速普及,网站的数量越来越多,全球互联网页面每天以千万的速度在增加。在庞大的新闻网络中找到您需要的材料无异于大海捞针。这时,搜索网站应运应运而生,满足大家的新闻检索需求。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合搜索引擎、门户搜索引擎和免费链接列表等。一个搜索引擎由四部分组成:搜索器、索引器、搜索器和用户界面。 2.2搜索引擎分类搜索引擎按工作方式可分为全文搜索引擎、搜索索引/目录和元搜索引擎三种。引擎)。全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,是目前广泛使用的主流搜索引擎。国外具有代表性的全文搜索引擎有谷歌和雅虎!国内比较有名的全文搜索引擎有百度等。

  他们都是通过从网上提取各种信息建立一个数据库,从这个数据库中检索出符合用户查询条件的相关记录,最后按照一定的顺序返回给用户。目录搜索引擎虽然具有搜索功能,但它并不是严格意义上的真正搜索引擎。它只是按目录分类的网站 链接列表。用户根本不需要进行关键词(Keywords)查询,只需要依靠分类目录就可以找到自己需要的信息。元搜索引擎 当元搜索引擎接受用户的查询请求时,它会同时在多个其他搜索引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎包括Dogpile、Vivisimo等。非主流搜索引擎的免费链接列表。三大搜索引擎2.3 搜索引擎的工作原理 搜索引擎由搜索引擎、索引器、检索器和用户界面组成。搜索引擎的主要工作流程包括:“页面抓取”、“页面分析”、“页面排序”和“关键字查询”2.3.1 页面抓取搜索引擎将搜索结果抓取到数据库中,读取网页的内容,并找到网页中的其他链接地址,然后通过这些链接地址找到下一个网页,一直循环直到网站的所有网页都被抓取完毕。 1、页面爬取过程“蜘蛛程序”通过这些URL列表爬到页面。 “蜘蛛”不断从这些页面中获取 URL 资源并存储页面,并加入 URL 列表。这样一个不断的循环,搜索引擎就可以从互联网上获取足够多的页面了。

  2、页收录principle 从指定页面开始,按照页面中的链接,按照特定的策略遍历网站中的页面。不断从 URL 列表中去除访问过的 URL,存储原创页面,同时提取原创页面中 URL 的信息:然后将 URL 分为域名和内部 URL 两类,并判断 URL 是否为之前已经访问过。未访问的 URL 添加到 URL 列表中。递归扫描 URL 列表,直到耗尽所有 URL 资源。 3、页收录方法“用户提交”2.3.2 页面分析搜索引擎首先索引存储的原创页面,过滤原创页面的标签信息,从网页中提取正文信息,然后对文本信息进行分词,建立关键词索引,得到页面与关键词的对应关系,最后对所有关键词进行重组,建立关键词与页面的对应关系。为了提高页面检索的效率,搜索引擎需要对抓取到的原创网页进行索引。由于url是页面的入口地址,索引原页面实际上就是索引微页面的url,这样就可以根据url快速进行索引。找到相应的页面。 2、网页分析 网页分析是整个页面处理中最重要的部分,包括以下链接:(4)Keyword Reorganization2.3.3 Page Sorting 用户在查询信息后向搜索引擎提交关键字, 搜索引擎在搜索结果页面返回与关键字相关的页面列表,这些页面按照与关键字的接近程度从上到下排列。

  决定页面顺序的因素有很多,包括页面相关性、页面相关性、链接、链接权重、用户行为、权重和用户行为。 1、page 相关性 页面相关性是指页面内容与用户查询的关键词之间的接近程度,主要由以下因素决定: 链接主要分为内链和外链,即网页页面制作或组织者在规划或编辑页面内容时添加到页面中。加入的原因可能是链接指向的页面非常重要或大多数用户需要。 2.3.4 关键字查询 搜索引擎查询功能的实现非常复杂,用户返回结果所需的时间也非常高。在如此短的时间内完成如此复杂的计算是不现实的。因此,搜索引擎需要通过一套高效的机制来处理来自用户的查询。 (1)先将用户提供的查询条件剪掉,将查询条件中无意义的词或词删除,如停止词,如,得等;(2)然后使用该词剪掉的结果作为反向索引列表中关键字匹配中的条件;(3)如果有匹配结果,则将所有匹配该关键字的页面的URL组合成一个列表;(4)最后匹配页面按权重由高到低排序返回给用户,用户在搜索引擎中的行为主要包括搜索和点击,搜索是用户获取信息的过程,点击是用户获取所需信息后的表现.为了在极短的时间内响应用户的查询请求,除了在用户提交查询信息之前生成对应页面排序列表的key外,搜索引擎还需要为页面排序建立缓存机制对应mo的列表st 经常查询的关键字。

  2.4 常用搜索引擎介绍谷歌公司成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创立,被公认为全球最大的搜索引擎。谷歌搜索引擎的主要搜索服务有:网页、图片、音乐、视频、地图、新闻、问答。 2.4.1 谷歌搜索引擎2.4.2 百度搜索引擎百度于1999年底在美国硅谷成立,目前是全球最好的中文信息检索与传递技术供应商在中国所有提供搜索引擎的网站门户网站中,80%以上得到百度的支持。现有客户包括新浪、中国人网、腾讯、263、21cn等。2.4.3 雅虎搜索引擎雅虎全球最早的分类目录和最大的门户网站网站。它的搜索结果最初来自谷歌,后来采用了Inktomi(被雅虎收购)提供的结果。雅虎现在已经开发了自己的搜索技术,称为雅虎搜索技术(YST)。搜索结果的数量与谷歌相当。 2.5 章节小结 本章介绍了搜索引擎的历史、分类和原理。总结了搜索引擎发展的演进过程,介绍了当前行业搜索引擎的主要类别:全文搜索和分类目录。简要介绍了搜索引擎的工作过程和原理。重点介绍了搜索引擎技术在星空黄页网站中的应用,描述了搜索引擎的架构和功能特点。搜索引擎的出现在很大程度上改变了人们使用信息的习惯,提高了信息的使用效率。它起源于互联网,但现在已经渗透到各个行业。了解搜索引擎,研究搜索引擎,并应用搜索引擎。广阔的发展空间。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线