提取“关键字”有哪些选项?

优采云 发布时间: 2020-08-08 14:27

  1.TF-IDF和关键字提取

  作为提取关键字的最基本,最简单的方法,首先介绍TF-IDF.

  要判断一个单词在文章中是否重要,一个容易想到的词就是频率. 重要的单词在文章中经常出现多次. 但是,另一方面,对于频繁出现的单词来说并不一定重要,因为某些单词经常出现在各种文章中,并且它们的重要性绝对不像在某些文章中经常出现的单词那么重要. 从统计的角度来看,它是给不常见的单词更大的权重,同时减少了常见单词的权重. IDF(反向文档频率)是此权重,TF是术语频率.

  TF =(单词在文章中出现的次数)/(文章中单词的总数)

  IDF = log(语料库文件总数/(收录单词+ 1的文件数)

  TF-IDF = TF * IDF

  博客示例[1]

  

  文章中“中国”的出现频率不低于“蜜蜂”和“农场”中的出现频率,但是由于它频繁出现在各种文章中,其反向文档出现频率较低,因此不会被认为是关键到文章中的单词.

  TF-IDF非常简单,但是它是经典且有效的,并且非常快. 在某些情况下,第一段和最后一段的文本权重会增加,因为文章的关键字在开头和结尾处经常出现. 但是TF-IDF仅从词频的角度挖掘信息,不能反映文本的深层语义信息.

  ic模型和关键字提取

  如果TF-IDF仅能从词频角度挖掘​​信息,如何挖掘更深的信息?这是主题模型要完成的任务.

  例如,以下四个句子:

  1. 早餐吃香蕉和菠菜冰沙

  2. 我喜欢吃西兰花和香蕉.

  3. 龙猫和优采云很可爱.

  4. 姐姐昨天收养了一只优采云.

  仅从单词的角度来看,重复了1.2句话的香蕉和3.4句的优采云. 但实际上,可以发现1.2句子主要与食物有关,而3.4句子主要与动物有关,并且食物和动物这两个词没有出现在这四个句子中. 是否可以判断这四个句子中收录的两个主题? ?或者,当两篇文章很少共享高频词时,例如一个关于香蕉,一个关于橙子,是否可以判断这两个文章都收录食物主题?如何产生话题以及如何分析文章的话题,这就是话题模型研究的内容. 对文本执行LSA(隐形语义分析).

  在直接分析词频的研究中,可以认为文章是用词来描述的,即转移关系的水平.

  

  topic-model认为文章是由主题组成的,并且文章中的单词是有一定可能性从主题中选择的. 在不同的主题下,单词出现的概率分布是不同的. 例如,“鱼雷”一词在“军事”主题下的出现比在“食物”主题下的出现更为频繁. 也就是说,主题模型认为文档和单词之间存在联系.

  

  首先假设每篇文章只有一个主题z. 对于文章中的单词w,它是根据z主题下的概率分布p(w | z)生成的. 在选择主题的前提下,生成整个文档的概率为

  

  这种假设每篇文章只有一个主题显然是不合理的. 实际上,每篇文章可能有多个主题,即主题的选择也服从一定的概率分布p(t),因此根据LDA模型,所有变量的联合分布为

  

  

  指示主题下单词的分布,

  

  指示文档下主题的分布.

  

  是第m个文档中的单词总数.

  

  和

  

  表示单词和主题的概率分布的先验参数. 学习LDA的过程是通过采集观察到的文档来学习

  

  过程. 有关学习过程,请参见论文[2].

  下图是LDA学习结果的示例

  

  取自[3]

  可以看出,主题模型的目的是从文本中发现隐藏的语义维度,并在单词和文档之间添加更多常规信息.

  3.textrank关键字提取

  Textrank从图形模型的角度查找文章的关键字. 优点是不需要预先基于大量数据进行训练.

  基本思想来自pagerank算法. PageRank的两个基本思想是,如果一个网页被许多其他网页链接,则表示该网页更重要. 如果网页是由权重较高的网页链接的,则其重要性将相应提高.

  

  根据网页中出现的链接判断两个网页之间是否存在边缘连接,并基于单词的共现关系判断textrank中两个单词之间是否存在关联. 在实际处理中,采用一定长度的窗口,并认为该窗口中的共现关系有效.

  修改后的textrank算法

  

  4.rake关键字提取

  rake算法提取的不是单个单词,而是由单词组成的短语. 标点符号用于分割短语

  

  每个短语的得分是通过累加组成该短语的单词获得的,单词的得分与单词的程度和频率有关

  

  与一个单词同时出现的单词越多,该单词的程度就越大.

  

  该算法本身非常简单并且易于理解,并且还有可以直接使用的python代码:

  GitHub-aneesha / RAKE: 快速自动关键字提取的python实现

  参考

  [1] TF-IDF和余弦相似度的应用(1): 自动提取关键字

  [2] Blei D M,Ng A Y,Jordan M I.潜在狄利克雷分配[J]. 机器学习研究学报,2003,3(Jan): 993-1022.

  [3] Blei D M.概率主题模型[J]. ACM通讯,2012,55(4): 77-84.

  [p] [4] Rose S,Engel D,Cramer N等. 从单个文档中自动提取关键词[J]. 文字挖掘,2010年: 1-20.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线