百度搜索引擎优化指南(第一点,TF-IDF是什么?TF和IDF有什么区别?)
优采云 发布时间: 2022-02-27 10:22百度搜索引擎优化指南(第一点,TF-IDF是什么?TF和IDF有什么区别?)
项目投资找A5快速获取精准代理商名单
我在博客里说过学seo学算法是傻,但是还是有很多人来问se算法问题,大部分都是TF-IDF算法。为了让大家加深对这个问题的理解,我因此对这个算法的一些问题进行了深入分析。
首先,什么是 TF-idf?
TF 和 IDF 是两个不同的概念。tf 用一个词在文档中的重复次数来表示这个词在所有词中的重要性,而另一个 idf 是一个词在所有文档中出现的次数。词项的重要性,出现的次数越多,常用词越少,越不重要,因为主题不够强烈,无法重复。TF-IDF 是一种统计方法,
用于评估一个词对文档集或语料库中的一个文档的重要性。一个词的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。搜索引擎经常应用各种形式的 TF-IDF 加权作为文档和用户查询之间相关程度的度量或评级。
这个百科的解释加上我自己的描述,不知道大家是不是很清楚?简而言之,TF-IDF 通过一定的统计意义来表达术语的重要性。为什么seo关注他,因为他可能会影响搜索词和搜索词的相关性,从而影响排名。
第二点,TF-IDF算法解决了什么问题,能发挥多大作用?
其实,既然我们研究过这个算法,就得明白这个算法解决了什么问题。其实我刚才说的,主要是解决一个文档中term的权重问题(很多人都知道这个算法影响排名,但是不知道为什么这个算法会影响排名)。那么我们可以再问一下,有多少因素会影响词项的权重?从视觉上看,大约有 5、6 个(但我们都知道多少个?),TF-IDF 在术语中占据什么位置?重要性可能排名第三或第四(不是最重要的因素)。而我一直说的,如果真的要研究算法,不仅要研究算法是什么,还要考虑算法的特性和算法特性的处理,因为它们都会影响最终的结果,
三、TF-IDF的算法特点是什么?
这是人们很少关注的一点。之所以算法的特性和算法特性的处理很重要,是因为所有的算法都会控制因素的影响,或者进行平滑的处理。这也不例外。很多人没有注意到这个影响,或者对此有过激的想法,所以他们会被很多seo细节所困扰,但他们无法理解。如果我想学这个,我认为谷歌的黑板报在谈到算法时已经提到了很多。许多实际应用模型与理论模型存在一定差距。这是现实。
第四点,TF-IDF算法上去,问题出在哪里,检索的状态如何?
其实我一直推荐的是跳出算法的束缚,用更长远的眼光看待这个问题。比如TF-IDF需要解决的问题的根本原因是什么,这个问题在检索原理中能占据什么样的位置?那将会?随着时间的推移而改变...... 只要往上想,越来越多的seo逐渐浮现,神马的TF-IDF也可以慢慢放弃。
第五点,算法之外
TF-IDF是用来研究term的权重的,早期是用来做相关性判断的,但不一定是静态的。比如BM25算法在很多方面都比他有优势。但随着检索技术的进步,如语义分析等技术的发展,该算法的范围和影响将逐渐受到限制。这也不得不说研究算法的悲剧。而且,我一直说的是,我们完全可以跳出这个范畴,从问题本身的角度去思考问题,或者从检索的角度去观察这个问题的意义,观察它的可行性。解决这个问题,观察结果和我们的思维差距……嘎嘎,不能再进一步了……
PS:最近一直在四处漂泊,也在学习一些新东西,所以时间不够。你看到的几乎所有的博客都是我有想法的时候,我一口气完成了大约30分钟。难免有很多缺陷,不要惊讶。我会持续更新seo思维进化系列。虽然不谈技术,但我觉得还是有一些seoers应该思考的。接下来,我也打算写一些seo入门的东西,希望能给一些新人一些帮助。我所做的一切,主要是希望大家能够冷静的看着seo,慢慢的回到正确的道路上。