TF-IDF算法如何实现晦涩的TF为词频的意思

优采云 发布时间: 2021-08-21 05:11

  

TF-IDF算法如何实现晦涩的TF为词频的意思

  

  一、TF-IDF 算法是什么意思

  搜索引擎有许多计算页面权重的算法。其中有一个非常有名的算法,英文缩写是TF-IDF。 TF-IDF 是一种统计方法,用于评估单词对文档集或语料库中的一个文档的重要性。一个词的重要性与其在文档中出现的次数成正比,但同时与它在语料库中出现的频率成反比下降。含义如下:

  TF:词频

  IDF:逆向文本频率索引

  TF-IDF=TF*IDF

  可能大家对这个词比较陌生,但是了解seo的朋友应该都听说过关键词密度,TF的词频就是大家熟悉的关键词密度。 TF用于判断页面的相关性。页面的相关性对网站的排名影响很大。在相同的关键词下,页面的相关性越高,百度就会认为它给这个页面更好的排名越重要。但是为了增加关键词的密度,不要在网页上叠加关键词。一旦被百度认可,就会受到惩罚。

  二、TF-IDF 算法如何实现

  TF 表示词频,指的是一个词在页面上出现的次数。如果一个文章的总字数为200,并且“网站optimization”这个词出现了4次,那么“网站optimization”的词频为TF=4/200,即0.02。一般来说,词频(关键词密度)越高,页面的相关性就越高。

  IDF是逆文本频率索引,听起来有点晦涩,没关系,我举个例子。假设“网站optimization”出现在N(2000)页,文件总数为M(亿),那么文件频率IDF=lg(M/N)=lg(100000000/2000)=4.69897。通俗地说,收录“网站optimization”这个词的网页越多,这个词就越不重要。

  一个网页是许多关键词的集合。搜索引擎不会给所有词都加分。我们需要一个高度可识别的词来为页面添加点。例如:搜索引擎收录1万亿页面,应该说每个页面都会有“the、is、middle、land、and”等词,这些高频词也称为干扰词或停止词,搜索引擎会移除这些词,所以这些词的奖励权重实际上应该是0。然后计算其中收录的关键词权重。

  三、TF-IDF算法的具体应用

  其实在搜索引擎搜索中,在计算权重的时候,会根据每个词的分词来计算,例如:“SEO网站optimization网站建公司”。

  假设:“SEO”页面搜索量为2000万,“网站optimization”搜索量为1000万,“技能”搜索量为5000万

  假设搜索引擎索引总数为 100 亿。

  去掉某个网页的停用词“的、是、中、地、得”后,被百度分成400个词。 “Seo”出现8次,“网站optimization”出现10次,“网站建筑公司”出现16次。

  然后是各自的词频:

  TF(SEO)=8/400=0.02,

  TF(网站optimization)=10/400=0.025

  TF(网站建筑公司)=20/400=0.04

  然后搜索“SEO网站optimized网站建公司”这个页面的相关性是:

  TF(Total)=0.02+0.025+0.05=0.095。

  还有 IDF(SEO)=LOG(/20000000)=2.69897

  IDF(网站optimization)= LOG(/10000000)=3

  IDF(网站建筑公司)=log(/100000000)=1.69897

  经过这个计算,搜索“SEO网站optimized网站建公司”的每个词都对页面的权重和相关性有贡献:

  tf-idf(seo)=0.02*2.69897=0.0539794

  Tf-dif(网站optimization)=0.025*3=0.075

  tf-idf(网站建筑公司)=0.04*1.69897=0.0679588

  可以看出,虽然技能出现频率较高,但认可度没有SEO和网站优化那么高,所以对页面权重的贡献不是太大。一个词的预测能力是识别度越高,该词的权重越大,反之越小。如果你看到“网站optimization”,你可能已经对这个页面的内容有一个基本的了解,但是你看到网站建公司,你可能不了解页面的主题。当然,TF-IDF算法只是搜索引擎算法的一个点。此外,H标签等页面标签的使用、搜索引擎纠错算法、外链内链接投票、页面相似度、URL路径层次等也很重要。点,后面会提到。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线