带有情感倾向的网评句子手动生成系统技术方案
优采云 发布时间: 2020-08-10 13:30本发明专利技术介绍了一个手动生成带有情感倾向的网评句子的系统,能够依照用户提供的关键词及情感等信息,自动生成匹配的网评词句。传统的自然语言生成方式生成的句子过分死板、单调,且扩展性差,很难适应人类渐趋变化的语言风格。本文介绍的句子手动生成机制,能够生成各具特色并带有情感倾向的句子,抛去了原先基于规则生成句子所须要的对语义、语法等的知识储备,简单高效。本发明专利技术的整体思想是,首先从网路获取句子资源作为语料库并借助情感剖析相关技术对其进行情感倾向分类,然后搭建搜索框架,基于用户提供的相关信息,从大量的数据中匹配符合用户需求的文本并呈现下来,本系统扩展性好且生成的语句更符合人们的日常用语。
全部详尽技术资料下载
【技术实现步骤摘要】
带有情感倾向的网评句子手动生成系统
本专利技术属于计算机应用领域,尤其涉及一种带有情感倾向的网路评论手动生成的技巧。
技术介绍
近年来,随着计算机、互联网等技术的快速发展,人们在工作和生活中会耗费大量时间活跃在网路中,很多消息新闻也是从网路获知,所以比起在现实生活中和同事交流意见思想,人们更倾向于在网路上发表自己的言论,让其言论更具影响力。自然语言生成属于人工智能和计算语言学的交叉学科,其目的致力让机器生成可以理解的人类自然语言。自然语言生成技术在好多领域都有应用,比如对话系统、机器翻译等,它的发展才能促使好多领域的进步。自然语言生成发展至今学者们提出了好多方式,其中最稳健也是使用最广泛的NLG方式是基于规则/模板的方式。Mann等提出的修辞结构理论(RST),被扩充为估算文本规划的理论基础,是基于规则生成的先祖。RST后来发展成为好多学者提出的文本生成方式的基础,特别是用于规划各类小型文本;Sugiyama等针对先前基于模板的*敏*感*词*形成的话语有时收录关于与输入用户话语的不相关语句,提出了一种基于模板的改进的方式,该方式使用用户话语中最突出的词组填充模板,并使用从Twitter搜集的Web级依赖结构提取相关词组。后来出现了可训练的诗句*敏*感*词*,Stent等提出的可训练的诗句*敏*感*词*,能够手动适应应用领域的通用语言知识,它有快速灵活且通用但在特定领域中形成高质量输出的优点,该*敏*感*词*可以形成与MATCH基于模板的*敏*感*词*相当的输出。随着网路的发展,数据的获取越来越容易,随之而生的新的基于语料库的自然语言生成方式被提出并广泛应用。Oh和Rudnicky提出了基于语料库的自然语言生成方式,对执行感兴趣任务的领域专家所说的语言进行建模,并使用该模型随机生成系统话语。后来将这一技术应用于语句的实现和内容的规划,并将生成结果的组件集成到一个可以工作的自然对话系统中。他们用两个语料库来建立基于词组的n-gram语言模型,然后随机生成句子。虽然上述传统的自然语言生成系统在现今也有着广泛的应用,但是这种系统也存在着一些问题,对手工订制的依赖性很大,而且生成的句子太单调,不能否适应人类渐趋变化的语言风格,且泛化能力差,不能否扩充到针对网评句子的生成。上述方式在我们应用上最大的问题是,上述生成系统忽视了用户在句子生成系统中的作用,不能由用户主导所生成的诗句。我们的系统主要是面向使用者,能够有针对性的依据用户提供的信息生成符合用户需求的句子。
技术实现思路
本专利技术是一个手动生成带有情感倾向的网评句子的系统,能够依据用户提供的关键词及情感等信息,自动生成匹配的网评句子。传统的自然语言生成方式生成的句子过分死板、单调,且这类方式扩展性差,很难适应人类渐趋变化的语言风格。我们的目标是为最终用户生成流畅且带有个人爱*敏*感*词*调的文本。本文介绍的句子手动生成机制,能够生成各具特色的句子并带有情感倾向,且抛去了原先基于规则生成句子所须要的对语义、语法等的知识储备,简单高效。我们的看法是首先从网路获取句子资源作为语料库并借助情感剖析相关技术对其进行情感倾向分类,然后借助搜索引擎的思想,在基于用户提供相关信息的情况下,从大量的数据中找寻符合用户需求的句子并呈现下来,这样生成的诗句更符合人们的日常。本专利技术提供了一种手动生成带有情感倾向网评句子的机制,整个系统的流程在图1中展示,具体包括下列步骤:步骤1:网络爬取数据。采用了网路爬虫技术,基于我们的需求,我们选择使用较简单的聚焦网路爬虫。选择微博、知乎、天涯等一些热门网站作为爬取对象,爬取内容为评论句子以及相应的点赞数。为了最大化我们句子的多样性,我们网路爬取了10万条句子后续整理为语料库,当然可以按照须要扩大爬取数目。
步骤2:数据整理储存。网页内容储存时应该只提取其中的文档部份,而网路的评论句子会出现emoji表情符号、图片、转发或则网页链接等不规则或则我们不需要的信息,所以须要在抓取的时侯对内容进行正则化处理,过滤掉我们不需要的信息,替换掉格式不能直接保留的信息,比如,对于表情符号,我们不能直接保存表情到数据库,但是表情符号对于情感的抒发很重要,对于后续我们进行的情感剖析太有帮助,所以对于这种信息不能直接过滤,要将表情符号转换为相应的情感语言抒发与爬取的句子一起保存出来。正则表达式的匹配规则见附图2。步骤3:对语料库句子进行情感剖析。情感剖析又称倾向性剖析,是对带有情感色调的主观性文本进行剖析、处理、归纳和推理的过程。我们爬取的网评信息是大量用户对例如任务、产品或则风波抒发的批评或则称赞的情绪,基于此,我们为了形成与使用者情感倾向相同的文本,需要对爬取的网评信息进行情感剖析,以过滤形成符合用户倾向的最终文本。我们进行情感剖析是借助了机器学习的相关技术对抓取的句子进行情感剖析,使用卡方检验进行特点提取,SVM分类器进行情感分类,在情感剖析的同时将相应的情感剖析结果写入数据库。情感剖析的流程见附图1的第三部份。
步骤4:搭建搜索框架。搭建一个才能快速有效地响应大量用户检索需求的搜索框架是很重要的,Lucene作为一个低耦合、高效率、容易二次开发的优秀的全文检索引擎构架,在设计搜索引擎时,将大运算量的部份在索引构建时就完成,对文档构建高效的索引库,在检索时效率高、速度快,所以我们在Lucene的基础上搭建我们的搜索框架,附图3为Lucene进行全文搜索的流程。步骤5:基于关键词及情感信息获取匹配句子。用户在系统查询插口处提供想要生成文本的关键词或则中心思想,并且选择相应的情感倾向,系统按照用户提供的关键词或其他文字信息以及选择的情感倾向,反馈给用户匹配的文本。附图说明图1是带有情感倾向的网评句子生成系统的流程图;图2是正则表达式匹配规则;图3是全文索引构架图;具体施行方法为了让本专利技术的目的、技术方案及优点愈发清楚明白,下面将结合本专利技术施行例中的附图,对本专利技术施行例中的技术方案进行清楚、完整的描述。本专利技术的整体思想是,首先从网路爬取大量的网路评论,整理后做为语料库备用,接着对于语料库中的句子,使用情感剖析的算法对其进行情感判定,其中情感分为正面、负面情感。然后基于前面整理后的语料库搭建搜索框架,最后按照用户输入的信息,从大数据中匹配最符合用户需求的网评句子。
具体包括以下步骤:步骤1:网络爬取数据。采用网路爬虫技术,从微博、知乎等热门网站中评论中爬取了10万多条网路评论以及相应的点赞数,后续整理为语料库。网络爬虫是一种才能自主采集Web页面内容的程序,按照系统结构和实现技术,大致可以分为通用网路爬虫、聚焦网路爬虫、增量式网路爬虫和深层网路爬虫,基于我们的需求,我们选择使用较简单的聚焦网路爬虫。用到的聚焦网路爬虫的*敏*感*词*见图1第一部分。我们首先确定爬取目标并获得初始URL,经页面剖析后获取页面中的链接,根据我们的目标过滤掉不需要的链接,将获取到的新的URL加入到URL队列中,然后用搜索算法确定队列中每位URL的优先级,并每次选择一个优先级高的URL进行内容爬取,循环这个过程,直到难以获取新的URL时停止。步骤2:数据整理储存。当人们在微博、知乎等社交平台(尤其是微博)发表言论的时侯,通常会通过附加一些相关的emoji表情或则图片来提高自己言论收录的情感,而这种文字以外方式的抒发在抓取的时侯会导致方式的改变,不规则
【技术保护点】
1.根据权力要求1所述的带有情感倾向的网评句子手动生成系统,其特点在于,包括网评句子爬取、数据清洗储存、情感剖析、搜索框架搭建、语句匹配生成:所述网评句子爬取用于为系统构建数据储备,爬取的网评句子作为原创语料库;所述数据清洗储存用于对原创语料库的数据进行清洗,过滤无效信息、非文本信息,替换有用信息为文本格式,删除重复信息,并将整理后的数据储存至数据库后续使用;所述情感剖析用语对语料库中的句子进行情感倾向的剖析,并将结果写入数据库;所述搜索框架的搭建用于搭建搜索框架,并且为数据库中数据构建全文索引;所述句子匹配生成用语执行查询并返回结果。全文索引构建后,查询插口接受使用者的输入选择,并按照使用者的输入以及选择的情感倾向匹配相应的文本信息反馈给用户。
【技术特点摘要】
1.根据权力要求1所述的带有情感倾向的网评句子手动生成系统,其特点在于,包括网评句子爬取、数据清洗储存、情感剖析、搜索框架搭建、语句匹配生成:所述网评句子爬取用于为系统构建数据储备,爬取的网评句子作为原创语料库;所述数据清洗储存用于对原创语料库的数据进行清洗,过滤无效信息、非文本信息,替换有用信息为文本格式,删除重复信息,并将整理后的数据储存至数据库后续使用;所述情感剖析用语对语料库中的句子进行情感倾向的剖析,并将结果写入数据库;所述搜索框架的搭建用于搭建搜索框架,并且为数据库中数...
【专利技术属性】
技术研制人员:夏正友,刘庆庆,刘赛赛,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:江苏,32
全部详尽技术资料下载 我是这个专利的主人