百度网页关键字抓取(TF-IDF:使用主题模型提取关键词的关键思想是什么?)
优采云 发布时间: 2022-03-30 05:20百度网页关键字抓取(TF-IDF:使用主题模型提取关键词的关键思想是什么?)
“Keyword”关键词提取方法:TF-IDF、TextRank、Rake、Topic-Model
关键词 是指反映文本主题或主要内容的词。关键词提取是NLP领域的一个重要子任务。在信息检索中,准确的关键词提取可以大大提高效率;在对话系统中,机器可以通过 关键词 理解用户意图;在文本分类中,关键词的发现也很有帮助。
关键词提取方法主要有:TF-IDF、TextRank、Rake、Topic-Model等。
关键词 是文档中表达的主要主题。在处理文档或句子时,提取 关键词 是最重要的任务之一,这也是 NLP 中非常有用的任务。
常见的关键词提取方法有:TF-IDF关键词提取方法、Topic-model关键词提取方法和RAKE关键词提取方法。
TF-IDF:
使用TF-IDF提取关键词的方法很容易理解。TF 衡量一个单词在文档中出现的频率。一个文档中出现多次的词总是有一定的特殊含义,但并不是所有多次出现的词都是有意义的,如果一个词在所有文档中出现多次,那么这个词就没有什么价值了。
TF-IDF 可以很好地衡量这些因素:TF=(单词在文档中出现的次数)/(文章 总单词数),IDF= log(语料库中的文档摘要/(文档收录单词) number+1))
TF-IDF=TF*IDF
TF-IDF 值越高,单词成为关键词 的概率就越高。
主题模型:
使用主题模型提取关键词的关键思想是认为文章是由主题组成的,而文章中的词是以一定的概率从主题中选出的,即即,文章 和单词之间有一个主题集。在不同的主题下,单词出现的概率分布是不同的。
根据LDA主题模型的学习,可以得到文档的主题词集合。
RAKE关键词 提取:
RAKE(快速自动关键字提取)算法的原作者是 Alyona Medelyan。她完成了 RAKE 的更新版本。muai索引器也是她的杰作。她的 GitHub 上有很多关键词提取项目。
有一个RAKE算法的介绍文章,链接是:
RAKE 提取的关键词 不是一个词,它可能是一个词组。
每个词组的得分是通过对组成词组的词进行累加得到的,词的得分与词的度数和频率有关:score = degree / freq
其中,与一个词共现的词越多,这个词的度数就越大。
原创 RAKE 的 GitHub 地址:
我还创建了一个使用RAKE提取英文句子关键词的项目,可以作为使用RAKE的一个例子。您可以从我的 GitHub 获取,地址如下:
更多北碚商城产品介绍:东营手机wap网站冬季经典女装商城建设网站南洋开发网站设计制作