文本摘要技术在图书情报领域,IBM计算机科学家H.P.Luhn

优采云 发布时间: 2021-06-07 19:30

  文本摘要技术在图书情报领域,IBM计算机科学家H.P.Luhn

  文本摘要的应用

  文本摘要的应用、文档自动索引、新闻信息服务、信息检索等

  是图书情报领域的主要研究内容。一般索引包括关键词标引、主题词索引和摘要索引。以前是人做的,现在机器自动做,会节省很多人力。

  新闻服务商提供新闻信息时,无论是提供单条新闻还是聚合新闻,用户有时不想看全文,或者看很多相关新闻,又想看摘要,所以有些网站 大会提供的新闻摘要将显示在news网站上。有一个叫Summly的应用,原名Trimit,是一款运行在iOS上的新闻阅读应用。它是由英国天才尼克·达洛伊西奥 (Nick D'Aloisio) 在 15 岁时创作的。该应用程序可以使用全文语义分析算法将整个新闻浓缩成一个新闻摘要,标题清晰,几句话。用户只需不到一分钟就能了解新闻中最关键的信息。该申请于2018年获得雅虎批准,以3000万美元收购。

  信息检索是用户查询和获取信息的主要方式,是查找信息的方法和手段。输入相关的关键词,就会得到相关的网页,

  

  

  信息检索中的典型应用搜索。打开搜索引擎,输入search关键词,就会返回搜索结果。网页会显示多个满足关键词条件的信息结果,每个结果会显示结果信息片段,这个信息结果片段会收录搜索关键词,这也是网页内容中最重要的部分,对原文的总结。这是一个特殊的摘要,内容应该与关键词有关。很多年前,就有专门研究这个领域的人。由于技术成熟,现在学习的人越来越少。

  文本摘要技术

  在图书馆和信息领域,IBM 计算机科学家 H.P.卢恩于1958年发表了《文学文摘的自动创建》,一篇关于文学文摘自动创建的论文。本文提出文章中最重要的句子是关键词最多的句子,关键词是出现次数最多的词。他的总结是将最重要的句子组合在一起。从本文开始到现在,人们研究文本自动摘要的历史已有 60 多年,并取得了一些进展,但仍不尽如人意。

  目前在实现自动文本摘要方面还存在很大的困难:

  第一:写摘要是一项非常聪明的工作,所以聪明的任务是免费的。假设有一个任务,需要 10 人或更多人根据同一个长文档写一个摘要。很可能大家都会写一个总结。他们不一样,但每个人写的摘要可能还可以。这种没有统一标准、玩起来比较自由的工作,其实机器很难做到。这个任务本质上是机器的搜索问题。你提供的信息越多,组合就越多,搜索空间就越大,结果越不可控。相反,信息越少,搜索空间越小,机器做起来就越容易。

  自然语言处理中的机器翻译工作比自动文本摘要更容易。机器翻译的任务是给出源语言的句子,机器翻译后得到目标语言的句子。这个任务有很强的约束,要求前后语言的语义报告一致,甚至每个词都可以匹配。这种约束强的任务会比较容易做。

  第二:机器写的摘要与专家写的摘要不同

  在写摘要之前,人们已经在脑海中对文章内容的内容和意义有了很好的理解和体验,然后再写摘要形成摘要。写好摘要后,可以展开为文章,如果有摘要,就会有文章。机器写summary的时候,需要先文章再生成summary。这将挑战机器自动生成摘要。

  自动汇总代表系统

  是一个简单的系统,主要通过句子抽取来实现。 NewsInEssence 是一个应用于新闻领域的摘要系统。提供news文章topic聚类(Topic Clustering)、实时搜索、文章summary和用户交互(User Interaction)等功能。

  Newsblaster 是美国哥伦比亚大学开发的多文档抽象系统,采用文本聚类作为预处理过程,在处理每天发生的重要新闻后生成简明摘要,如文本聚类、信息融合和文本一代。这项工作稍微复杂一些。句子可以调整,任何句子都可以断开和重新组合。从而会出现句子不一致、标点符号缺失等问题。

  总长度

  自动文本摘要的长度是实际应用场景中的一个重要问题。会影响用户的阅读体验,以及系统能否在文本长度上有效表达文章内容。 ,

  《摘要特刊介绍》一书的作者拉德夫认为,摘要是“从一个或多个文本中提取的一段文本,其中收录原文中的重要信息,其长度不超过比或远远少于原文的一半”。

  生成的摘要的长度可以由用户根据需要指定。可以根据摘要与原文的比例,如10%或20%,也可以根据摘要的字数或字节数,100字,250个汉字等,可以根据关于用户的定义或句子的数量,无论是三句还是五句。

  在实践中,也有人在研究自动计算合适的摘要长度。其实没有很好的答案,因为自动文本摘要的长度与用户的需求有关。它可以很长也可以很短。如果你需要一台机器预测摘要的长度实际上是非常困难的。在实际应用中,模型是自动汇总的,生成的汇总有长有短。其他阈值参数将在模型运行之前设置。本质上是将汇总长度参数改为设置其他阈值参数,长度成为其他受控参数。我们知道一个意思可以有多种表达方式,表达的句子有很多种,虽然都表达相同的意思,所以自动生成的摘要的内容也可能有多种结果,结果可以是长的,也可以是长的。短,所以预测生成摘要的长度是困难的。

  多样化的总结任务

  对于传统的新闻摘要任务

  请看上一篇:

  飘哥:自然语言处理自动文本摘要技术系列(一)信息摘要概述

  

  请看其他系列自然语言处理文章:

  飘哥:自然语言学习的表征学习与知识获取(一)disnotation

  

  飘哥:自然语言学习的表征学习与知识获取(二)word2vec

  

  飘哥:自然语言学习的表征学习与知识获取(三)知识图谱

  

  飘哥:自然语言学习的表征学习与知识获取(四)TransE

  

  飘哥:自然语言系列学习的表征学习与知识获取(五)融合文本与知识,使用cnn方法进行关系抽取

  

  飘哥:自然语言学习的表征学习与知识获取(六)fusion entity description Knowledge representation and fusion entity description knowledge representation)

  

  Piaoge:自然语言学习的表征学习和知识获取(七)Relation Extraction Using Relation Paths

  

  飘哥:自然语言系列学习的表征学习和知识获取(八)Using remote supervisor and multi-instance关系抽取

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线