采集的文章和关键词不符(我要谈的是一个很简单的问题,只用10分钟就可以理解)

优采云 发布时间: 2021-12-21 22:03

  采集的文章和关键词不符(我要谈的是一个很简单的问题,只用10分钟就可以理解)

  这个标题可能看起来很复杂,但我想说的是一个非常简单的问题。

  有一个很长的文章。我想使用计算机在没有人工干预的情况下提取其关键词(自动关键字短语提取)。我怎样才能正确地做到这一点?

  

  这个问题涉及到数据挖掘、文本处理、信息检索等许多计算机前沿领域,但没想到,有一个非常简单的经典算法,可以给出相当满意的结果。简单到不需要高深的数学,普通人只要10分钟就能看懂。这就是我今天要介绍的TF-IDF算法。

  让我们从一个例子开始。假设有一篇长篇文章《中国的养蜂业》,我们要用电脑提取它的关键词。

  

  一个简单的思考方法是找到最常出现的词。如果一个词很重要,它应该在这个文章中出现多次。因此,我们进行“词频”(Term Frequency,缩写为TF)统计。

  结果,你一定已经猜到,最常用的词是----“的”、“是”、“在”----这一类中最常用的词。它们被称为“停用词”,意思是对查找结果没有帮助的词,必须过滤掉。

  假设我们过滤掉它们,只考虑剩下的有意义的词。这会遇到另一个问题。我们可能会发现“China”、“bee”和“farming”三个词出现的次数相同。这是否意味着作为关键词,它们的重要性是一样的?

  显然,情况并非如此。因为“中国”是一个很常见的词,相对来说,“蜜蜂”和“耕种”就没有那么常见了。如果这三个词在一篇文章文章中出现的次数相同,可以合理地认为“蜜蜂”和“农业”比“中国”更重要,也就是说,在关键词中排序@> 上面,“蜜蜂”和“育种”应该排在“中国”之前。

  因此,我们需要一个重要性调整系数来衡量一个词是否是一个常用词。如果一个词比较少见,但是在这个文章中出现了很多次,那么很可能就体现了这个文章的特点,这正是我们所需要的关键词。

  用统计语言表达就是根据词频给每个词赋予一个“重要性”权重。最常用的词(“的”、“是”、“在”)的权重最小,较常用的词(“中国”)的权重较小,不常用的词(“蜜蜂”、“农业”)的权重较小。 ) ) 给予更大的权重。这个权重被称为“逆文档频率”(Inverse Document Frequency,缩写为IDF),它的大小与一个词的通用性成反比。

  知道“词频”(TF)和“逆文档频率”(IDF)后,将这两个值相乘,得到一个词的TF-IDF值。一个词对文章的重要性越高,它的TF-IDF值就越大。所以前几个字就是这个文章的关键词。

  以下是该算法的详细信息。

  第一步是计算词频。

  

  考虑到文章的长短不一,不足之处,为了便于比较不同的文章,规范“词频”。

  

  或者

  

  第二步是计算逆文档频率。

  这时候就需要一个语料库来模拟语言环境。

  

  如果一个词比较常见,分母就越大,逆文档频率越小,越接近0。分母加1的原因是为了防止分母为0(即所有文档不收录单词)。log 表示对得到的值取对数。

  第三步是计算TF-IDF。

  

  可以看出,TF-IDF与一个词在文档中出现的次数成正比,与该词在整个语言中的出现次数成反比。所以自动抽取关键词的算法很明确,就是计算文档中每个词的TF-IDF值,然后降序排序,取前几个词。

  以《中国养蜂》为例。假设文本长度为1000个词,“China”、“bee”、“breeding”各出现20次,这三个词的“词频”(TF)都是0.02。然后,我搜索Google,发现有250亿个网页收录“的”这个词,假设这是中文网页的总数。有62.3亿网页收录“中国”,0.484亿网页收录“蜜蜂”,0.9730亿网页收录“修真”。那么它们的逆文档频率(IDF)和TF-IDF如下:

  

  从上表可以看出,“蜜蜂”的TF-IDF值最高,“农业”次之,“中国”最低。(如果还计算“的”这个词的TF-IDF,会是一个非常接近0的值。)所以,如果只选择一个词,“Bee”就是这个关键词的关键词文章。

  除了自动提取关键词,TF-IDF算法还可以用在很多地方。例如,在搜索信息时,对于每个文档,可以计算一组搜索词(“China”、“bee”、“farming”)的TF-IDF,将它们相加得到整个文档。以色列国防军。具有最高值的文档是与搜索词最相关的文档。

  TF-IDF算法的优点是简单快速,结果更符合实际情况。缺点是单纯用“词频”衡量一个词的重要性不够全面,有时重要的词可能出现的次数并不多。而且,该算法无法反映单词的位置信息。出现在前面的词和出现在后面的词都被认为具有相同的重要性,这是错误的。(一个解决方案是给全文的第一段和每段的第一句更多的权重。)

  下次我会用TF-IDF结合余弦相似度来衡量文档之间的相似度。

  (结束)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线