采集的文章和关键词不符(我要谈的是一个很简单的问题，只用10分钟就可以理解)

优采云发布时间: 2021-12-21 22:03

　　这个标题可能看起来很复杂，但我想说的是一个非常简单的问题。

　　有一个很长的文章。我想使用计算机在没有人工干预的情况下提取其关键词（自动关键字短语提取）。我怎样才能正确地做到这一点？

　　这个问题涉及到数据挖掘、文本处理、信息检索等许多计算机前沿领域，但没想到，有一个非常简单的经典算法，可以给出相当满意的结果。简单到不需要高深的数学，普通人只要10分钟就能看懂。这就是我今天要介绍的TF-IDF算法。

　　让我们从一个例子开始。假设有一篇长篇文章《中国的养蜂业》，我们要用电脑提取它的关键词。

　　一个简单的思考方法是找到最常出现的词。如果一个词很重要，它应该在这个文章中出现多次。因此，我们进行“词频”（Term Frequency，缩写为TF）统计。

　　结果，你一定已经猜到，最常用的词是----“的”、“是”、“在”----这一类中最常用的词。它们被称为“停用词”，意思是对查找结果没有帮助的词，必须过滤掉。

　　假设我们过滤掉它们，只考虑剩下的有意义的词。这会遇到另一个问题。我们可能会发现“China”、“bee”和“farming”三个词出现的次数相同。这是否意味着作为关键词，它们的重要性是一样的？

　　显然，情况并非如此。因为“中国”是一个很常见的词，相对来说，“蜜蜂”和“耕种”就没有那么常见了。如果这三个词在一篇文章文章中出现的次数相同，可以合理地认为“蜜蜂”和“农业”比“中国”更重要，也就是说，在关键词中排序@> 上面，“蜜蜂”和“育种”应该排在“中国”之前。

　　因此，我们需要一个重要性调整系数来衡量一个词是否是一个常用词。如果一个词比较少见，但是在这个文章中出现了很多次，那么很可能就体现了这个文章的特点，这正是我们所需要的关键词。

　　用统计语言表达就是根据词频给每个词赋予一个“重要性”权重。最常用的词（“的”、“是”、“在”）的权重最小，较常用的词（“中国”）的权重较小，不常用的词（“蜜蜂”、“农业”）的权重较小。 ) ) 给予更大的权重。这个权重被称为“逆文档频率”（Inverse Document Frequency，缩写为IDF），它的大小与一个词的通用性成反比。

　　知道“词频”（TF）和“逆文档频率”（IDF）后，将这两个值相乘，得到一个词的TF-IDF值。一个词对文章的重要性越高，它的TF-IDF值就越大。所以前几个字就是这个文章的关键词。

　　以下是该算法的详细信息。

　　第一步是计算词频。

　　考虑到文章的长短不一，不足之处，为了便于比较不同的文章，规范“词频”。

　　或者

　　第二步是计算逆文档频率。

　　这时候就需要一个语料库来模拟语言环境。

　　如果一个词比较常见，分母就越大，逆文档频率越小，越接近0。分母加1的原因是为了防止分母为0（即所有文档不收录单词）。log 表示对得到的值取对数。

　　第三步是计算TF-IDF。

　　可以看出，TF-IDF与一个词在文档中出现的次数成正比，与该词在整个语言中的出现次数成反比。所以自动抽取关键词的算法很明确，就是计算文档中每个词的TF-IDF值，然后降序排序，取前几个词。

　　以《中国养蜂》为例。假设文本长度为1000个词，“China”、“bee”、“breeding”各出现20次，这三个词的“词频”（TF）都是0.02。然后，我搜索Google，发现有250亿个网页收录“的”这个词，假设这是中文网页的总数。有62.3亿网页收录“中国”，0.484亿网页收录“蜜蜂”，0.9730亿网页收录“修真”。那么它们的逆文档频率（IDF）和TF-IDF如下：

　　从上表可以看出，“蜜蜂”的TF-IDF值最高，“农业”次之，“中国”最低。（如果还计算“的”这个词的TF-IDF，会是一个非常接近0的值。）所以，如果只选择一个词，“Bee”就是这个关键词的关键词文章。

　　除了自动提取关键词，TF-IDF算法还可以用在很多地方。例如，在搜索信息时，对于每个文档，可以计算一组搜索词（“China”、“bee”、“farming”）的TF-IDF，将它们相加得到整个文档。以色列国防军。具有最高值的文档是与搜索词最相关的文档。

　　TF-IDF算法的优点是简单快速，结果更符合实际情况。缺点是单纯用“词频”衡量一个词的重要性不够全面，有时重要的词可能出现的次数并不多。而且，该算法无法反映单词的位置信息。出现在前面的词和出现在后面的词都被认为具有相同的重要性，这是错误的。（一个解决方案是给全文的第一段和每段的第一句更多的权重。）

　　下次我会用TF-IDF结合余弦相似度来衡量文档之间的相似度。

　　（结束）

0

2021-12-21

采集的文章和关键词不符

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集的文章和关键词不符(我要谈的是一个很简单的问题，只用10分钟就可以理解)

0 个评论

发起人

AI时代内容工厂

采集的文章和关键词不符(我要谈的是一个很简单的问题，只用10分钟就可以理解)

0 个评论

发起人

相关问题