上海搜索引擎优化seo(TF-IDF是什么意思网页优化的密度?)
优采云 发布时间: 2021-11-07 21:23上海搜索引擎优化seo(TF-IDF是什么意思网页优化的密度?)
.1、 TF-IDF是什么意思
搜索引擎有很多计算页面权重的算法,其中一种是非常有名的算法,英文缩写是TF-IDF。TF-IDF 是一种统计方法,用于评估单词对文档集或语料库中文档的重要性。一个词的重要性随着它在文档中出现的频率而增加,但随着它在语料库中出现的频率而降低。含义如下:
TF:词频
IDF:逆文本频率索引
TF-IDF=TF*IDF
这个词我们可能不熟悉,但是我们知道seo的朋友们应该都听说过关键词密度,TF的词频叫做关键词密度。TF用于确定页面的相关性。网页的相关性对网站的排名影响很大。在相同的关键词下,页面的相关性越高,百度就会发现它对页面更好的排名越重要。但是为了增加关键词的密度,不要在网页中堆叠关键词。一旦被百度识别,你将受到处罚
.2、如何实现TF-IDF算法
,TF是词频,指的是一个词在页面上出现的次数。如果文章的一篇文章总字数为200,并且“网站optimization”这个词出现了4次,那么“网站optimization”的词频为TF=4 /200,即0.02。一般来说,词频(关键词密度)越高,页面相关性越高
IDF是反向文本频率索引,听起来有点晦涩。没关系。让我给你举个例子。假设“网站优化”出现在n(2000)页,文件总数为m(亿),那么文件频率IDF=LG(m/n)=LG( 100000000/2000)=4.69897。一般来说,网页中“网站优化”这个词越多,这个词就越不重要
一个网页是很多关键词的集合,搜索引擎不会给所有的词都加分,我们需要对这个词有很高的识别度才能给网页加分。例如:一个搜索引擎收录数万亿个页面。应该说每一页都会有“de、time、middle、place、de”这样的词。这些高频词也被称为干扰词或停用词,搜索引擎会将这些词处理Remove,所以这些词的额外权重应该为0,然后分别计算这些关键词的权重
3、TF-IDF算法的具体应用
其实在搜索引擎检索中,在计算权重的时候,会根据每个分词来计算,比如:“SEO网站optimization网站construction company”
,假设“SEO”页面搜索量为2000万,“网站优化”页面搜索量为1000万,“提示”数为5000万
,假设搜索引擎索引总数为100亿
去掉“德、时、中、地、德”停用词后,一个网页被百度分成400个词,“SEO”出现8次,“网站优化”出现10次,“ 网站建筑公司”出现16次
, 然后是各自的词频:
TF (SEO)=8/400=0.02,
TF(网站优化)=10/400=0.025
TF(网站建筑公司)=20/400=0.04
, 搜索“SEO网站optimization网站construction company”的相关性为:
TF(总计)=0.02+0.025+0.05=0.095
IDF(SEO)=log(100000000/20000000)=2.69897
IDF(网站优化)=log(1000000000/100000000)=3
IDF (网站建筑公司)=log(100000000/100000000)=1.69897
经过计算,每个搜索词为“SEO网站optimization网站construction company”,其对页面权重和相关性的贡献为:
tf-idf(seo)=0.02*2.69897=0.0539794
tf-dif (网站优化)=0.025*3=0.075
tf-idf(网站建筑公司)=0.04*1.69897=0.0679588
可以看出,虽然技能使用比较频繁,但是识别度不如seo和网站优化,所以对页面权重的贡献不是太大。一个词的预测能力是识别度越高,该词的权重越大,反之亦然。看到“网站优化”,你可能对网页的内容有一个基本的了解,但看到网站建筑公司,你可能不知道网页的主旨。当然,TF-IDF算法只是搜索引擎的点算法。另外,比如使用页面标签,比如H标签,搜索引擎纠错算法,对外部链接内的链接进行投票,页面相似度,URL路径层次等也很重要。很重要的一点,
中提到