百度搜索引擎优化原理(一下索引系统建立倒排索引的重要过程——入库写库)

优采云 发布时间: 2021-10-29 16:24

  百度搜索引擎优化原理(一下索引系统建立倒排索引的重要过程——入库写库)

  众所周知,搜索引擎的主要工作流程包括:抓取、存储、页面分析、索引、检索等主要流程。

  1、索引系统

  在以亿为单位的网页库中搜索某个特定的关键词,就像大海捞针。有可能在一定时间内完成搜索,但用户不能等待。从用户体验的角度来看,我们必须以毫秒为单位。用户满意的结果,否则用户只会流失,如何满足这个要求?

  如果知道用户搜索的哪些页面关键词出现在哪些页面,那么用户检索的过程可以想象成查询中分词后将页面集的不同部分进行交叉的过程,检索变成这样,通过页面名称的比较和交叉,可以在毫秒内以1亿单位进行搜索。这就是倒排索引和交叉检索的过程。以下是建立倒排索引的基础知识。过程:

  

  (1),页面分析的过程其实就是对原创页面的不同部分进行识别和标记,如:标题、关键词、内容、链接、锚点、评论、其他不重要的区域等。

  (2),分词的过程其实包括分词、分词、同义词转换、同义词替换等,以页面标题的分词为例,得到的数据将是这样的数据:term text 、termid、词性、词性等等等。

  (3)。前面的准备工作完成后,下一步就是创建倒排索引,形成{termàdoc}。下图展示了索引系统中的倒排索引流程:

  

  倒排索引是搜索引擎实现毫秒级检索的一个非常重要的环节。接下来,我们要介绍索引系统建立倒排索引的重要过程——存储和写入。

  2、影响搜索结果排名的因素

  用户输入关键词进行搜索。百度搜索引擎在排序链接中会做两件事。******是从索引库中提取相关网页,二是根据不同维度的得分综合排序提取网页,“不同维度”包括:

  (1),相关性:网页内容与用户搜索需求的匹配程度,比如网页中收录的用户检查关键词的次数,以及这些关键词在哪里出现;外部网页指向这个页面上使用的锚文本等。

  (2),权威性:用户喜欢具有一定权威性的内容网站。相应地,百度搜索引擎也更相信优质权威网站提供的内容。

  (3),时效性:时效性结果是指新的网页加载了新鲜的内容。目前,时效性结果在搜索引擎中越来越重要。

  (4).重要性:网页内容与用户检查需求相匹配的重要程度或流行程度。

  (5),丰富性:丰富性看似简单,其实是一个覆盖面很广的命题,可以理解为丰富的网页内容,完全可以满足用户的需求;不仅可以满足单一的用户的需求,也能满足用户的需求,扩展需求。

  (6), 流行度:指网页是否流行。

  以上就是百度搜索引擎在决定搜索结果排名时考虑的六大原则。那么六项原则的另一面是什么?实际应用中哪个原理占的比重最大?事实上,这里没有明确的答案。

  在百度搜索引擎的早期,这些门槛确实是比较固定的。例如,“相关性”可以占整体排名的 70%。但是,随着互联网的不断发展和检索技术的进步,网页数量呈爆炸式增长。, 相关性不再是问题,于是百度搜索引擎引入了机器学习机制,让程序自动生成计算公式,促进更合理的排名策略。

  4、低质量网络狙击策略-石榴算法

  我们理解网站生存发展需要资金支持,我们从不反对网站添加各种合法广告。不要再问我们“我们网站添加XX联盟广告会被处罚吗?”针对这类问题,有的网站在百度上排名很好,但在页面上放置了大量的广告破坏访问用户的用户体验,严重影响了百度搜索引擎的用户体验。

  为此,百度质量团队于2013年5月17日发布公告:针对低质量网页推出石榴算法,旨在打击含有大量不良广告,阻碍用户正常浏览的页面,尤其是带有大量低质量广告和混乱页面的弹出窗口。主要内容收录垃圾邮件广告的页面。

  百度质量团队希望站长能从用户的角度出发,考虑长远发展,在不影响用户体验的前提下合理投放广告,赢得用户的长期青睐是网站成长和发展的基础。生长。

  相关文章:百度搜索引擎是怎么工作的?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线