电子商务知识系列之搜索引擎的工作原理-神州一剑

优采云 发布时间: 2021-06-11 22:10

  电子商务知识系列之搜索引擎的工作原理-神州一剑

  搜索引擎的工作原理

  神舟易建2008/文章/陈健电子商务知识系列2

  众所周知,所谓互联网就是指全球互联网。您的位置只是局域网上的一个小位置。在上一篇《什么是搜索引擎》中,陈健已经说过,搜索引擎是按照工作原理来区分的,分为全文搜索搜索引擎、分类目录搜索引擎和元搜索引擎三种。 .

  搜索引擎的工作原理基本上分为三个步骤:

  第一步:从互联网上采集信息

  蜘蛛是一个非常生动的名字。把互联网比作蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址查找网页。从某个页面网站(通常是首页)开始,读取该网页的内容,找到该网页中的其他链接地址,然后通过这些链接地址找到下一个网页,并不断循环直到@k14的所有网页@已被抓取。

  第二步:整理信息,建立索引库

  当用户输入关键词进行搜索时,搜索系统程序会从网页索引数据库中找到与关键词匹配的所有相关网页。因为这个关键词的所有相关网页的相关度已经计算出来了,所以只需要按照已有的相关度值进行排序即可。相关性越高,排名越高。分析索引系统程序对采集到的网页进行分析,提取相关网页所在的URL链接、编码类型、页面内容中收录的关键词、关键词位置、生成时间、大小、与其他网页的链接关系。根据一定的相关性算法进行大量复杂的计算,得到页面内容和超链接中每个关键词每个网页的相关性(或重要性),然后利用这些相关信息构建网页索引数据库.

  第三步:在索引库中搜索排序并接受查询

  最后,页面生成系统将搜索结果的链接地址和页面的内容摘要组织起来,返回给用户。网络蜘蛛一般根据每个搜索引擎的周期而有所不同,可能是几天、几周或几个月,也可能对不同重要性的网页有不同的更新频率。必须定期重新访问所有网页以更新网络索引数据库。 , 反映网页内容的更新,添加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化就会以更新的形式反映在用户搜索查询的结果中。

  全文搜索引擎

  全文搜索引擎的信息采集基本上是自动的。换句话说,搜索引擎使用称为蜘蛛的自动搜索机器人程序。按照网络上的链接从一个网页到另一个网页,从一个网站 到另一个网站采集Webpage 数据。就像在日常生活中,“一过十,十过一百……”,从几个网页开始,连接到数据库上其他网页的所有链接。理论上,如果页面上有合适的超链接,机器人可以遍历大部分页面。

  网络蜘蛛采集的网页需要经过其他程序的分析,按照一定的关联算法进行大量的计算,建立网页索引,才能加入索引库。我们在检索信息时登录的搜索引擎只是搜索引擎系统的一个检索界面。当您输入关键词进行查询时,搜索引擎会从庞大的数据库中找到与关键词匹配的所有相关网页的索引。并按照一定的排名规则呈现给我们。不同的搜索引擎有不同的网络索引数据库和不同的排名规则。因此,当我们使用不同的搜索引擎查询同一个关键词时,搜索结果会有所不同。

  类别搜索引擎

  与全文搜索引擎一样,分类目录的整个工作过程也分为采集信息、分析信息和查询信息三个部分,但分类目录的采集和分析主要依靠人工完成。分类一般都有专门的编辑,负责采集网站上的信息。随着收录站点的增多,现在站点管理员一般都是将自己的网站信息提交到分类目录,然后分类目录的编辑审核提交的网站来决定是否收录这个站点。如果网站被批准,分类目录的编辑人员还需要分析网站的内容,并将网站放置在相应的分类和目录中。所有这些收录 站点也存储在“索引数据库”中。用户在查询信息时,可以选择按关键词搜索或按类别搜索。如果用关键词搜索,返回的结果和全文搜索引擎一样,也是按照网站信息的相关程度来排列的。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等进行,其查询结果仅通过收录网站的网址链接主页,而不是特定页面。

  类别目录就像电话簿。根据每个网站 的性质,将 URL 排序在一起。类别下有子类别,一路到每个网站的详细地址,通常对每个网站的内容进行简要介绍,用户也可以不使用关键词进行查询,只要找到相关目录,他们可以找到相关的网站(注意:是相关的网站,不是这个网站对于某个网页的内容,网站在某个目录中的排名一般是根据标题字母顺序或收录的时间顺序)。

  类别目录搜索引擎并没有真正搜索互联网。它搜索的实际上是一个预先组织好的网络索引数据库。

  元搜索引擎

  互联网是一个巨大的信息海洋。没有搜索引擎的帮助,查找信息就像大海捞针。随着信息时代的发展和普及,互联网上的信息量越来越大。传统搜索引擎无法覆盖整个互联网信息,用户对搜索信息的数量和质量提出了更高的要求。这时,出现了一种新型的搜索引擎聚合元搜索(MetaSearch)。利用其他独立搜索引擎对搜索结果进行整合、控制和优化的技术称为“元搜索技术”,是元搜索引擎的核心技术。元搜索引擎可以整合多个传统搜索引擎的搜索结果进行聚合、过滤等过程,从而提高搜索结果的质量。

  元搜索引擎以其丰富的资源、比较全面准确的搜索结果等特点受到用户的青睐,逐渐成为不可缺少的具有巨大潜力的新型网络搜索工具。

  真正意义上的搜索引擎,通常是指全文搜索,采集互联网上千万到数十亿个网页,对网页中的每一个词(即关键词)进行索引,建立索引数据库引擎。当用户搜索某个关键词时,页面内容中收录关键词的所有网页都会被搜索出来作为搜索结果。经过复杂的算法排序后,这些结果会按照与搜索关键词的相关程度进行排序。

  目前的搜索引擎普遍采用超链接分析技术。除了分析被索引网页本身的内容*敏*感*词*的文本。因此,有时,即使某个网页A中没有“和美眼霜”这样的词,如果另一个页面B的“和美眼霜”链接指向这个页面A,那么用户搜索“和美眼霜”眼霜”。说到“眼药膏”,你也可以找到网页A。另外,如果有更多的网页(C、D、E、F...)有一个叫做“和美眼霜”的链接指向这个网页A,或者给出这个链接的来源网页(B、C、D、E , F...) 越好,当用户搜索“和美眼霜”时,页面A会被认为更相关,排名会更高。

  虽然只有一个互联网,但陈健提醒大家,各种搜索引擎的能力和偏好不同,所以抓取的网页不同,排序算法也不同。大型搜索引擎的数据库存储着互联网上数亿到数十亿的网页索引,数据量达数千GB甚至数万GB。但即使最大的搜索引擎建立了超过20亿个网页的索引数据库,也只能占到互联网上普通网页的不到30%。不同搜索引擎之间网页数据的重叠率一般在70%以下。我们使用不同搜索引擎的重要原因是它们可以搜索不同的内容。而且互联网上有很多内容是搜索引擎无法收录的,我们也无法通过搜索引擎进行搜索。

  陈健提醒大家,应该有一个概念:搜索引擎只能搜索其网页索引数据库中存储的内容。我们应该有这样的概念:如果搜索引擎的网页索引库里应该有信息,我们却没有搜索到,那是我们的能力有问题。学习搜索技巧可以大大提高我们的搜索效率,增加我们的工作能力。

  陈健再次提醒大家,随着搜索经济的兴起,人们开始越来越关注全球各大搜索引擎的性能、技术和日流量。作为公司,您会根据搜索引擎的流行度和每日流量来选择是否投放广告;作为网民,您会根据搜索引擎的性能和技术,选择自己喜欢的搜索引擎查找信息;作为公司的网络营销人员,陈健认为应该使用更具代表性的搜索引擎作为研究对象。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线