关键词自动采集生成内容系统(如何覆盖文章的各个主题?关键词自动标注算法详解)

优采云 发布时间: 2022-02-15 01:18

  关键词自动采集生成内容系统(如何覆盖文章的各个主题?关键词自动标注算法详解)

  除了这些,关键词在文本聚类、分类、摘要等领域也发挥着重要作用。比如在聚类的时候,把关键词相似文章文章当成一个簇可以大大提高 K-means 聚类的收敛速度。提取某一天所有新闻的 关键词 可以让您大致了解当天发生的事情。或者将某个时间段内几个人的微博组合成一个长文本,然后提取关键词,就可以知道他们主要在讨论什么话题。

  3.现有问题和挑战

  文章的关键词通常具有以下三个特点[1]:

  从以上三个特点可以看出关键词注解算法的要求和挑战:

  一个。新词发现和词组识别的问题,如何快速识别网上最新的词汇(拆解难,可行又珍惜……)?

  湾。关键词的候选集问题,不是文章中的所有词都可以作为候选

  C。如何计算候选词与文章的相关性?

  d。如何涵盖文章 的各个主题?

  关键词分配算法需要预先定义一个关键词词库,限制了关键词的候选范围,算法扩展性差,费时费力——密集;关键词 提取算法是从文章的内容中提取一些词作为标记词。当文章中没有优质词时,这种方法是无能为力的。为了解决上述问题和挑战,我们设计了一种分层的关键词自动标注算法。

  二.分层关键词自动标注算法1.分层关键词系统

  对于新闻的关键词识别任务,我们设计了一个分层的关键词系统,如图3所示。第一层是新闻频道(体育、娱乐、科技等),第二层是是新闻的主题(一个新闻可以收录多个主题),第三层是出现在文章中的标签词。

  图 3 分层 关键词 系统

  三层 关键词 系统具有以下优点:

  图 4. 分层 关键词 自动标注结果示例

  2.算法过程

  从图3可以看出,主题和标签词依赖于新闻频道,所以在标注新闻的关键词时,首先要获取新闻的类别,然后选择不同的主题模型根据新闻主题的类别预测新闻,最后提取新闻中的标签词。

  在关键词注解方法中,我们结合了关键词分配和关键词提取两种方法。图 5 描述了处理 文章 的算法流程。其中,频道和主题提取方法属于关键词分配算法,标签词提取属于关键词提取算法。除了上一节提到的分层关键词的两个优点外,我们的算法还有以下优点:

  图 5 分层关键词自动标注算法流程

  2.1 文本分类器

  对于文本分类器,我们采用最大熵模型[2],并使用具有该业务去年频道标签的新闻作为训练集。每个通道选择通道相关性最高的 1W 个词作为分类特征。

  关于最大熵模型,网上可以查到很多相关资料,这里就不介绍了。

  2.2 主题预测

  使用 LDA [3] 作为主题聚类模型。LDA 的大多数开源实现都是单进程的。在处理*敏*感*词*语料库时,时间和内存开销非常大,无法满足我们的要求。因此,我们实现了一个分布式 LDA 平台,可以快速处理*敏*感*词*数据。

  语料经LDA平台处理后,会得到每个主题下概率高的词。手动选择优质话题,用一个词或词组概括话题。对于一篇文章文章,LDA的推理结果是一个概率向量,我们选择概率值大于阈值的主题作为文章所属的主题。

  图6 优质主题

  图 7 文章主题关键词

  2.3 标签词提取

  标签词提取包括:生成候选词和相关性计算。下面分别介绍这两部分。

  1)生成候选词

  分词得到的基础词、词组等,过滤掉基础词中的停用词

  命名实体(有效解决新词和热词的自动发现)

  2)相关性计算

  候选词使用线性加权进行评分,其特征包括:

  选取相关性得分大于阈值的候选词作为文章的标签词。

  3.有效评价

  该测试是对从腾讯随机抽取的 351 篇新闻文章进行的。指标如表1所示。由于主题集的开放性,其召回率难以评估,因此仅评估其准确率。

  表 1 分层关键词自动标注算法准确调用率

  三.访问业务及展望

  分析错误提取的关键词,算法还是存在一些问题,后续我们会继续改进这些问题。

  通用词过滤不完善,未来候选词过滤模块需要优化。提取出来的两个关键词可能表达的语义相同,后面会引入同义词等资源来解决。

  公司目前已接入的业务包括:腾讯新闻客户端、手机QQ空间个性化资讯。欢迎有需要的团队联系我们,使用腾讯文智自然语言处理。

  参考

  [1] 刘志远. 基于文档主题结构的关键词提取方法研究[D]. 北京: 清华大学, 2011.[2] Berger AL, Pietra VJ D, Pietra SA D. 自然语言处理的最大熵方法[J]. 计算语言学, 1996, 22(1): 39-71.[3] Blei DM, Ng AY,Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3:993-1022.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线