输入关键字 抓取所有网页(Java中实现标记引擎的无监督方法-乐题库)

优采云 发布时间: 2022-02-13 12:25

  输入关键字 抓取所有网页(Java中实现标记引擎的无监督方法-乐题库)

  问题描述

  我目前正在尝试在 Java 中实现标签引擎并寻找从文本中提取关键字/标签的解决方案 (文章)。我在 stackoverflow 上找到了一些建议使用 Pointwise Mutual Information 的解决方案。

  解决方案 1

  我不能使用pyton和nltk,所以我必须自己实现。但我不知道如何计算概率。等式如下所示:

  PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]

  我想知道的是如何计算P(term, doc)

  我已经有一个 Langer 文本语料库和一组 文章。这些 文章 不是语料库的一部分。语料库使用 lucene 进行索引。

  请帮助我。最好的问候。

  推荐答案

  有很多算法可以做到这一点:

  开源工具:

  kea() 监督方法使用训练数据和受控词汇

  maui indexer() 基本上是 kea 的扩展,提供了使用百科全书提取关键短语的便利。

  carrot2() 用于关键短语提取的无监督方法。它支持多种输入、输出格式和关键短语提取参数。

  槌主题建模模块()

  斯坦福主题建模工具()

  Mahout 聚类算法()

  商业 API:

  炼金术 API()

  zemanta API()

  yahoo 词条提取 api()

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线