简述什么是搜索引擎优化(内容页关键词布局在SEO中的具体落地方法(组图))
优采云 发布时间: 2021-11-29 22:10简述什么是搜索引擎优化(内容页关键词布局在SEO中的具体落地方法(组图))
项目招商找A5快速获取精准代理商名单
关键词是SEO的核心概念之一,很多SEO实践工作都是围绕关键词展开的。本文尝试将搜索技术原理与网站优化实践相结合,总结SEO中内容页面关键词布局的具体落地方法。
一、简单介绍搜索引擎的技术原理
搜索引擎的核心技术基础是将用户的查询词用自然语言分割成有意义的词组,然后从索引库中找到这些词组中收录全部或部分关键词的内容,并返回结果。
正常人的搜索思路是带关键词来查找内容是否收录关键词。假设你想从10个序号为1-10的网页中找出含有“关键词 layout”的网页,去全文搜索这10个网页,看是否有“关键词 layout”这个词" 被收录,然后返回收录单词 "关键词 layout" 单词的网页序号。但是如果是从几百万或者几千万的网页中搜索,速度很慢,所以发明了倒排索引的概念。(下图中的数据并非实际数据,仅供参考)
如上图,它是最简单的倒排索引模型(DocID是搜索引擎分配给抓取的网页的唯一编号)。搜索引擎爬虫每次爬取一个网页时,会将网页分成若干个词组,并将这些词与倒排索引表一一对比:如果倒排索引表的“关键词”列有这个word,在对应的倒排列表中添加当前网页的DocID编号;如果没有就加一行(涉及生词识别,这里不展开),给这个关键词分配一个ID,然后写回当前网页的编号。这样,当我们查询“关键词1”时,我们很快就会知道相关网页有(1,2,3,5)。更复杂的查询词被假设为拆分为"关键词1", "<
仅此一项不足以对搜索结果进行排序。在非作弊的情况下,某个关键词在网页上出现的次数越多,关键词就越能代表该网页的特征。前提是过滤停用词(停用词几乎是每个网页都有很多不能表达任何特定含义的词,例如:“的”、“是”、“了”等)。如果我们可以在倒排索引表中添加网页中关键词的频率信息(简称词频--TF),就可以对网页进行排序。如下图: 当我们的查询词被分割为“关键词1”和“关键词2”后,相关网页可以排序为(3,5,1,2)。
假设有两个网页1、page2,倒排索引中的信息如下:
我们搜索“关键词 how to layout”,搜索词分为“关键词”、“how”、“layout”。第1页,“关键词”、“how”和“Layout”分别出现2、2、 2次,共6次;“How”和“Layout”出现7次在第2页,按照前面的逻辑,最终的搜索结果排序为(2,1),这显然不是一个理想的排序结果。第2页的主题显然是关于“如何布局Go。 ” 这个时候就需要引入IDF(Inverse Document Frequency Index)来解决这个问题。
如果网页集合中收录的某个关键词的网页较少,则关键词具有更好的网页区分能力,因此IDF越大,权重越高。假设上图中“关键词”、“How”、“Layout”和“Go”的IDF分别为2.5、0.3、< @0.8、3,每个词的TF乘以IDF再求和,网页1、2的相关性为:7.2、4.6,所以搜索“关键词如何布局”的排序结果为(1,2),比较符合实际。
关键词的位置信息也是很重要的一点。一般认为关键词在标题中的出现,比在正文中关键词的出现更能体现网页的主题特征。H标签的重要性就在于此。搜索引擎还可以根据代码布局和噪声比(例如停用词的频率)确定导航在哪里、文本在哪里、侧边栏在哪里等。位置信息会标注在倒排索引列表中,参与排序决策。
另外,还有一些其他常用的技术方法,比如:二字索引/词组索引,“关键词如何排版”不一定分为三个短字,也可以分为“关键词layout", "how to", "how to layout"等;相关词合并搜索、“关键词”相关词“keyword”、“how”相关词“how”等。
当然,在实践中,现代大型搜索引擎的倒排索引模型会复杂得多,排序算法涉及到很多其他因素(一个重点是超链接分析)。由于篇幅和作者水平有限,不再继续展开。
二、关键词如何布局
1、标题中必须有关键词,但不一定是完整的问题
鉴于搜索引擎在查询时会将查询词分为N个以上的词、双词、词组,并添加相关词来合并查询,所以标题中的关键词不一定是一个完整的疑问句,典型的就是“做XXXX哪家公司好”。标题中不一定需要这个完整的词。即使标题收录这个完整的短句,也无法匹配其他完整的短句。一个高质量的网页往往可以匹配数百个长尾关键词。显然,标题不可能收录所有内容。标题的另一个主要功能是吸引点击。点击率也是影响排名的因素,但核心词“XXXX”、“好”、“公司”必须出现。
2、 正文自然均匀地分布了一些核心词和分词词
在搜索引擎发展初期,很多技术人员利用TF*IDF算法的高权重漏洞,堆积了大量关键词,以快速获得更好的搜索排名。后来搜索引擎修复漏洞,从算法层面打击作弊,网上流行了“理想关键词密度3%~8%”的观点。首先,这个密度不是针对完整的查询词计算的,而是针对切分后的所有词计算的。在实践中,你会发现关键词密度略低于3%,而关键词高密度8%的很多页面都可以获得很好的排名。
如果你是一名搜索引擎工程师,你会做什么?我想我会结合全网的历史访问数据(如百度统计、移动百度等可以获得更全面的访问数据)和关键词密度信息划定一个合理的范围和预警范围。超出警戒范围的人会沉默。结合站点的历史数据和预警范围内小流量排名第一阶段的访问数据反馈,决定是压制还是维持还是给予更高的排名。
相比于关键词的密度,我们更应该关注语言的流畅度(盲目插入关键词显得冗长别扭)和内容的深度。毕竟,搜索引擎有成百上千的排名因素,他们不能忽视彼此。
3、正文下方的相关内容和侧边栏推荐适当的布局关键词
虽然搜索引擎可以根据代码和噪声比来判断这些不是文本部分,从而减轻了这里关键词的一些权重,但从百度快照缓存的角度来看,它仍然有一点作用。
正文底部和侧边栏的相关内容和推荐内容,多从横向和纵向两个角度选取。比如这篇文章,主题是关于“关键词布局”,然后横向推送一些“网站结构布局”、“关键词挖掘技巧”等网站优化内容,最可能有很多访客感兴趣;“教你如何搭建优质外链”、“如何提高落地页转化率”等垂直帖子,也是访问者可能暂时压制的隐藏需求。添加关键词布局的同时,还可以增加PV,减少跳出,提升用户体验。为什么不这样做。