搜索引擎主题模型优化(内容页关键词布局在SEO中的具体落地方法(组图))
优采云 发布时间: 2021-12-27 12:03搜索引擎主题模型优化(内容页关键词布局在SEO中的具体落地方法(组图))
文章目录 [隐藏]
关键词是SEO的核心概念之一,很多SEO实践工作都是围绕关键词展开的。本文尝试结合搜索技术原理和网站优化实践,总结SEO中内容页面关键词布局的具体落地方法。
一、简单介绍搜索引擎的技术原理
搜索引擎的核心技术基础是将用户的查询词用自然语言分割成有意义的词组,然后从索引库中找到收录
这些词组全部或部分的内容,并返回结果。
正常人的搜索思路是带关键词来查找内容是否收录
关键词。假设你想从编号为1-10的10个网页中找出收录
“关键词layout”的网页,去全文搜索这10个网页,看是否收录
“关键词layout”这个词,然后返回单词的网页的序列号。但是如果是从几百万或者几千万的网页中搜索,速度很慢,所以发明了倒排索引的概念。(下图中的数据并非实际数据,仅供参考)
如上图,它是最简单的倒排索引模型(DocID是搜索引擎分配给抓取的网页的唯一编号)。搜索引擎爬虫每次爬取一个网页时,会将网页分成若干个词组,并将这些词与倒排索引表进行一一对比:如果倒排索引表的“关键词”列有这个word,在对应的倒排列表中添加当前网页的DocID编号;如果没有,加一行(涉及生词识别,这里不展开),给这个关键词分配一个ID,写回当前网页的编号。这样,当我们查询“关键词1”时,我们很快就会知道相关网页有(1,2,3,5)。更复杂的查询词被假设拆分为"关键词1", "<
仅此一项不足以对搜索结果进行排序。在非作弊的情况下,某个关键词在网页上出现的次数越多,关键词就越能代表该网页的特征。前提是过滤停用词(停用词几乎是每个网页都有很多不能表达任何特定含义的词,例如:“的”、“是”、“了”等)。如果我们可以在倒排索引表中添加网页中关键词的频率信息(简称词频--TF),就可以对网页进行排序。如下图: 当我们的查询词被分割为“关键词1”和“关键词2”后,相关网页可以排序为(3,5,1,2)。
假设有两个网页1、第2页,倒排索引中的信息如下:
我们搜索“关键词 how to layout”,搜索词分为“关键词”、“how”、“layout”。在第1页,“关键词”、“how”和“Layout”出现了2次,共6次;“How”和“Layout”出现了7次2、2、 web page 2. 按照前面的逻辑,最终的搜索结果排序为(2, 1),这显然不是一个理想的排序结果。page 2的主题显然是关于“如何布局Go”。这时候就需要引入IDF(Inverse Document Frequency Index)来解决这个问题。
如果网页集合中收录
的某个关键词的网页较少,则关键词具有更好的网页区分能力,因此IDF越大,权重越高。假设上图中“关键词”、“How”、“Layout”和“Go”的IDF分别为2.5、0.3、< @0.8、3,每个词的TF乘以IDF再求和,网页1、2的相关性为:7.2、4.6,所以搜索“关键词如何布局”的排序结果为(1,2),比较符合实际。
关键词的位置信息也是很重要的一点。一般认为关键词在标题中的出现,比在正文中关键词的出现更能体现网页的主题特征。H标签的重要性就在于此。搜索引擎还可以根据代码布局和噪声比(例如停用词的频率)确定导航在哪里、文本在哪里、侧边栏在哪里等。位置信息会标注在倒排索引列表中,参与排序决策。
另外还有一些其他常用的技术方法,比如:两词索引/词组索引,“关键词如何排版”不一定分为三个短词,也可以分为“关键词layout”、“怎么写”、“怎么布局”等;相关词合并搜索,“关键词”相关词“keyword”,“how”相关词“how”等。
当然,在现实中,现代大型搜索引擎的倒排索引模型会复杂得多,排序算法中还加入了很多其他因素(一个重点是超链接分析)。由于篇幅和作者水平有限,我们不再继续展开。
二、关键词如何布局
1、标题中必须有关键词,但不一定是完整的问题
鉴于搜索引擎会将查询分为N个以上的词、双词、词组,并在查询时添加相关词来合并查询,所以标题中的关键词不一定是一个完整的疑问句,典型的就是“做XXXX哪家公司好”。标题中不一定需要这个完整的词。即使标题收录
这个完整的短句,也无法匹配其他完整的短句。一个高质量的网页往往可以匹配上百条长尾关键词,显然一个标题不可能收录
全部。标题的另一个主要功能是吸引点击。点击率也是影响排名的因素,但核心词“XXXX”、“好”、“公司”必须出现。
2、 将一些核心词和分词词自然均匀地分布在正文中
在搜索引擎发展初期,很多技术人员利用TF*IDF算法的高权重漏洞,堆积了大量关键词,以快速获得更好的搜索排名。后来,搜索引擎修复漏洞,从算法层面打击作弊,“理想关键词密度3%~8%”的流行观点在网上出现。首先,这个密度不是针对完整的查询词计算的,而是针对切分后的所有词计算的。在实践中,你会发现关键词的密度略低于3%,也有关键词的高密度。8% 的页面可以获得良好的排名。
如果你是一名搜索引擎工程师,你会做什么?我想我会结合全网的历史访问数据(比如百度统计,移动百度等可以获得更全面的访问数据)和关键词密度信息划定一个合理的范围和预警范围,如果预警范围超出预警范围,将被静默处理,并结合网站历史数据和小流量排名第一阶段的访问数据反馈在预警范围内决定是否压制或维持或给予更高的排行。
与关键词的密度相比,我们更应该关注语言的流畅度(盲目插入关键词显得冗长别扭)和内容的质量和深度。毕竟,搜索引擎有成百上千的排名因素,他们不能忽视彼此。
3、正文下方的相关内容和侧边栏推荐适当的布局关键词
虽然搜索引擎可以通过代码和噪声比来判断这些不是文本部分,从而减轻了这里关键词的一些权重,但是从百度快照缓存的角度来看,还是有一点作用的。
正文底部和侧边栏中的相关内容和推荐内容,大多是从横向和纵向两个角度选取的。比如这篇文章,主题是关于“关键词布局”,然后横向推送一些“站点结构布局”、“关键词挖矿技巧”等站内优化内容,有一个很多访客感兴趣的可能性高;“教你如何搭建优质外链”、“如何提高落地页转化率”等垂直推送内容,也是访问者可能暂时压制的隐藏需求。添加关键词布局的同时,还可以增加PV,减少跳出,提升用户体验。为什么不这样做。