搜索引擎优化原理( 1.搜索引擎的概念与搜索引擎搜索引擎的应用)

优采云 发布时间: 2022-02-19 05:03

  搜索引擎优化原理(

1.搜索引擎的概念与搜索引擎搜索引擎的应用)

  

  1.搜索引擎的概念

  我们对搜索引擎的定义如下: 搜索引擎是能够通过互联网接受用户的查询命令,并为用户提供满足其查询要求的信息资源网址的系统。据统计,搜索引擎搜索仅次于电子邮件应用。目前互联网上比较有影响力的中文搜索工具有:google、百度、北大天网、iask、雅虎、搜狗、搜搜等搜索引擎。英文有:Yahoo!、AltaVista、Excite、Infoseek、Lycos、Aol 等。

  真正意义上的搜索引擎通常是指在互联网上采集数千万到数十亿的网页,并对其中的每一个词进行索引(即关键词)。

  搜索引擎的原理可以分为四个步骤:从互联网上抓取网页、建立索引库、在索引库中搜索和排序、对搜索结果进行处理和排序。

  (1)、从外网爬取网页:使用蜘蛛系统程序,可以自动从外网采集网页,自动访问外网,并跟随任意网页中的所有URL爬到其他网页,重复这个过程,把所有爬取的页面都采集回来。

  (2),建立索引库:分析索引系统程序对采集到的网页进行分析,提取相关网页信息(包括网页所在的URL、编码类型、关键词@ >、关键词位置、生成时间、大小、与其他网页的链接关系等),并根据一定的相关性算法进行大量复杂的计算,得到每个关键词@的每个网页> 在页面内容和超链接的相关性(或重要性)中,然后使用这些相关信息来构建网页索引数据库。

  (3),在索引库中搜索排名:当用户输入关键词时,搜索系统程序会从网页索引库中查找所有与关键词匹配的相关网页。因为相关使用的网页 关键词的相关性已经计算过了,所以只需要根据已有的相关值进行排序,将内容组织好返回给用户。

  (4),对搜索结果进行处理和排序:所有相关网页的关键词的所有相关信息都记录在索引数据库中,只需将相关信息和网页级别整合形成相关的数值度,然后进行排序,相关度越高,排名越高,最后页面生成系统将搜索结果的链接地址和页面内容摘要整理后返回给用户。

  搜索引擎的分类

  搜索引擎的技术基础是全文检索技术。全文检索通常是指对文本进行全文检索,包括信息存储、组织、性能、查询、访问等方面。它的核心是文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技术方面也逐渐发展并得到了广泛的应用,但搜索引擎与全文检索仍有区别。搜索引擎与传统意义上的全文检索的主要区别如下。

  (1),数据量。

  传统的全文检索系统是面向企业自身或与企业相关的数据。一般索引数据库的规模多在GB级别,数据量只有几百万;但是互联网网页搜索需要处理数十亿的网页,搜索引擎的策略是使用服务器集群和分布式数据计算技术。

  (2),上下文相关性。

  信息太多,区分和排序尤为重要。谷歌等搜索引擎采用网页链接分析技术,以网页在互联网上的链接次数作为重要性判断的依据;但是,全文检索的数据源中的相互链接度不高,不能作为判断重要性的依据,只能根据内容的相关性进行排序。

  (3),安全。

  互联网信息是公开的,除了文字内容,其他信息不是很重要;而企业全文检索的数据源为内部信息,有级别、权限等限制,对查询方式的要求也比较严格。数据一般以安全、集中的方式存储在数据库仓库中,以保证数据的安全和管理要求。

  (4),个性化和智能。

  搜索引擎是针对互联网访问者的。由于数据量和客户数量的限制,自然语言处理技术、知识检索、知识挖掘等计算密集型智能计算技术难以应用。这也是目前搜索引擎技术的发展方向。. 全文检索数据量小,检索需求明确,客户数量少,在智能化和个性方面更具优势。

  除了以上与全文检索系统的区别外,搜索引擎按其工作方式主要可分为三类,即全文搜索引擎(Full Text Search Engine)、目录索引类(Search Index/目录)和元搜索引擎(元搜索引擎)。

  一、全文搜索引擎。

  全文搜索引擎是名副其实的搜索引擎(google、AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut、百度、中文搜索、北大天网等)以网页文本为主建立的数据库中),匹配的相关记录检索用户的查询条件,然后将结果按照一定的顺序返回给用户,是真正的搜索引擎。从搜索结果的来源来看,全文搜索引擎可以细分为两种:一种是有自己的检索程序,俗称机器人程序或蜘蛛程序,另一种是有自己的网页数据库。 ,而搜索结果直接从自己的数据库中调用,比如上面提到的搜索引擎;另一种是租用其他引擎的数据库,按自定义格式排列搜索结果,

  全文搜索引擎具有全文搜索、检索功能强、信息更新速度快等优点。但同时,它也有它的不足之处。提供的信息虽然多且全,但可供选择的信息过多会降低相应的命中率,而且提供的查询结果重复链接多,层次结构不清晰,给人一种杂乱无章的感觉。

  二、目录索引搜索引擎。

  目录索引虽然有搜索功能,但并不是严格意义上的真正搜索引擎,只是一个按目录分类的网站链接列表。用户无需搜索关键词(关键字)即可找到他们需要的信息。最具代表性的目录索引是大名鼎鼎的 Yahoo! ,其他包括Open Directory Project(DMOZ)、LookSmart、About等。国内搜狐、新浪、网易搜索也属于这一类。

  目录索引和全文搜索引擎的区别在于它是手动创建的,站点是通过“手动方法”进行分类的。与全文搜索引擎不同的是,网站上的所有文字和信息都是收录进去的,但是先把网站分成一定的类别,然后记录一些摘要信息,并给出一个网站 的简要概述。当用户提出搜索请求时,搜索引擎将只搜索 网站 的*敏*感*词*。其主要优点是:层次分明、结构清晰、易于查找;多级分类,便于查询具体明确的主题;内容摘要和分类下的内容简洁明了,方便用户一目了然。缺点是搜索范围小,更新速度慢,

  三、元搜索引擎。

  当元搜索引擎接受用户的查询请求时,它会同时在多个其他搜索引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎包括InfoSpace、Dogpile、Vivisimo等。在中文元搜索引擎中,北斗搜索具有代表性。在排列搜索结果方面,有的直接按照来源搜索引擎排列搜索结果,如Dogpile,有的按照自定义规则重新排列结果,如Vivisimo。

  除了以上三类搜索引擎,还有以下几种集中的非主流形式。

  (1),集合搜索引擎:比如HotBot在2002年底推出的引擎。这个搜索引擎类似于元搜索引擎,不同的是不是同时调用多个搜索引擎当时,用户在引擎中提供了4种选择,所以他更准确地称其为聚合搜索引擎。

  (2),门户搜索引擎:如Aol Search、Msn Search等,虽然提供搜索服务,但既没有目录也没有网络数据库,搜索结果完全来自其他引擎。

  (3),Free For ALL links,FFA):这类网站一般只是简单的滚动和排列链接项,少数类别简单,但规模比Yahoo!等等。目录索引要小得多。

  除上述分类外,搜索引擎还应具备以下功能:

  A. 网页搜索功能

  B. 网站搜索功能

  C.图片搜索功能

  D.新闻搜索功能

  E.字典搜索功能

  F. 功能搜索功能

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线