百度网页关键字抓取(TF-IDF:使用主题模型提取关键词的关键思想是什么?)

优采云 发布时间: 2022-03-30 05:20

  百度网页关键字抓取(TF-IDF:使用主题模型提取关键词的关键思想是什么?)

  “Keyword”关键词提取方法:TF-IDF、TextRank、Rake、Topic-Model

  关键词 是指反映文本主题或主要内容的词。关键词提取是NLP领域的一个重要子任务。在信息检索中,准确的关键词提取可以大大提高效率;在对话系统中,机器可以通过 关键词 理解用户意图;在文本分类中,关键词的发现也很有帮助。

  关键词提取方法主要有:TF-IDF、TextRank、Rake、Topic-Model等。

  关键词 是文档中表达的主要主题。在处理文档或句子时,提取 关键词 是最重要的任务之一,这也是 NLP 中非常有用的任务。

  常见的关键词提取方法有:TF-IDF关键词提取方法、Topic-model关键词提取方法和RAKE关键词提取方法。

  TF-IDF:

  使用TF-IDF提取关键词的方法很容易理解。TF 衡量一个单词在文档中出现的频率。一个文档中出现多次的词总是有一定的特殊含义,但并不是所有多次出现的词都是有意义的,如果一个词在所有文档中出现多次,那么这个词就没有什么价值了。

  TF-IDF 可以很好地衡量这些因素:TF=(单词在文档中出现的次数)/(文章 总单词数),IDF= log(语料库中的文档摘要/(文档收录单词) number+1))

  TF-IDF=TF*IDF

  TF-IDF 值越高,单词成为关键词 的概率就越高。

  主题模型:

  使用主题模型提取关键词的关键思想是认为文章是由主题组成的,而文章中的词是以一定的概率从主题中选出的,即即,文章 和单词之间有一个主题集。在不同的主题下,单词出现的概率分布是不同的。

  根据LDA主题模型的学习,可以得到文档的主题词集合。

  RAKE关键词 提取:

  RAKE(快速自动关键字提取)算法的原作者是 Alyona Medelyan。她完成了 RAKE 的更新版本。muai索引器也是她的杰作。她的 GitHub 上有很多关键词提取项目。

  有一个RAKE算法的介绍文章,链接是:

  RAKE 提取的关键词 不是一个词,它可能是一个词组。

  每个词组的得分是通过对组成词组的词进行累加得到的,词的得分与词的度数和频率有关:score = degree / freq

  其中,与一个词共现的词越多,这个词的度数就越大。

  原创 RAKE 的 GitHub 地址:

  我还创建了一个使用RAKE提取英文句子关键词的项目,可以作为使用RAKE的一个例子。您可以从我的 GitHub 获取,地址如下:

  更多北碚商城产品介绍:东营手机wap网站冬季经典女装商城建设网站南洋开发网站设计制作

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线