智能化的关键词追踪模型通过分析挖掘打下基础

优采云 发布时间: 2021-04-25 19:00

  智能化的关键词追踪模型通过分析挖掘打下基础

  摘要:本文通过分析舆论信息采集策略,提出了一种智能关键词跟踪模型。通过关键词智能跟踪模型的应用,网络舆情监测系统可以及时捕获热点事件的热点关键词,从而实现网络舆情监测系统对发展趋势的敏感响应。热点事件,为网络舆情热点事件的预警提供数据支持。简而言之,关键词智能跟踪模型基于某种关键词加权算法。根据民意事件不断变化的速度,通过反复的归纳计算,可以修改,调整和校对先前选择的关键词。过程。

  关键词:互联网民意监测; 关键词;智能跟踪

  中文图书馆分类号:TP39 3. 09

  1舆论采集和分析

  1. 1信息采集

  根据Internet上热点的分布特征,当执行信息采集时,系统将为时效性很强网站的主流媒体执行信息采集。信息源具有高度的可靠性和实时性,信息量采集小,分析和处理速度快,热点分析速度快,准确性高且及时警告。合理地使用主流媒体的搜索引擎网站进行基于主题的信息采集。由于这些网站的分割技术不均匀,为了确保信息采集的准确性和实时性,我们采用了第二种搜索方案。在基于主题的信息采集之前,请对要进行主题采集的单词进行分词。根据分词的结果,首先执行采集并根据“宽范围” 关键词进行存储,然后跟随采集的结果。“小范围” 关键词进一步搜索,以便采集的信息准确性很高。

  1. 2信息预处理

  除系统所需的舆论信息外,该网页还收录许多其他信息,例如:Flash,视频,图片,广告和冗余链接。过滤掉垃圾邮件后,还必须合并同一主题的民意信息,即删除重复项。并且根据系统的规范,将舆情统一存储,作为下一步数据分析和挖掘的基础。信息预处理的主要软件包包括:主题关键字提取,正文中的关键信息提取,自动摘要,超链接分析,URL重复数据删除,垃圾邮件过滤等。

  1. 3舆论分析

  (1)民意的自动分类。民意信息的自动分类也是文本分类。这是让计算机自动识别民意信息的内容并在指定的分类模型下对民意进行分类的过程。自动进行民意分类首先设置类别关键词,为每个关键词设置一个相应的权重,然后进行最基本的分析并扫描采集中的民意信息,分别扫描标题和内容,然后分析关键词的出现次数,最后根据类别关键词模型计算每个关键词的权重,如果权重超过一定分数,将自动分类为相应的类别。

  (2)舆论相似度排名。根据舆论信息主要内容的相似度,比其他方法更为实用和准确。利用分词技术对舆论关键词进行比较和计算。公众舆论的相似度,并设置较高的相似度阈值;如果超过该阈值,则确认很重要;将其与原创主题合并,无需进行任何进一步的操作;合并后,添加手动重新确认链接以确保重新分发万无一失。

  (3)趋势分析技术。趋势分析是使用程序根据舆论关键词提取信息发布的意图。首先,根据汉语的特点,建立语义数据库。然后将民意信息特征关键词与语义数据库进行比较,以进行语义分析,最后根据结果确定民意事件的趋势,这种趋势分析可以阐明发布者要表达的观点和立场。

  2舆论关键词提取

  2. 1个单个文档关键词提取

  在提取关键词之前,首先对文档进行分词处理,然后使用停止词汇表和过滤规则过滤分词结果。停止词汇表包括辅助词,介词,连词和其他功能词以及长度为1的词。没有实际意义的词。对于明显无用的单词,例如数字和量词,无意义的前缀和后缀,可以设计相应的过滤功能以过滤无用的单词。然后计算过滤后的词分割结果的权重,得到每个词的权重。

  2. 2 关键词权重计算

  文本关键词提取更多基于权向量生成方法,最常用的是TFIDF算法。 TFIDF的主要思想是,如果某个单词或短语出现在TF频率较高的文章文章中,并且如果很少出现在其他文章中,则认为该单词或短语具有良好的分类能力(较大的IDF值),并且适合分类。但是,除了TF和IDF外,每个单词还具有有效的信息,例如语音的一部分和文档中单词的位置信息。

  2. 3文档集热点关键词提取

  文档集的热点关键词应该是某些文档的关键词,因此从所有文档关键词的集合中建立候选关键词集,并进行特征提取以获得文档设置关键词。如果关键词的出现次数更多,则证明热点关注度更高;反之亦然。 IDF值越大,单词的辨别能力越强,并且越符合主题的特征。

  3 关键词的智能跟踪

  3. 1个主题聚类

  考虑到不同主题网站的权威性,影响力和及时性,主题采集的来源权重是第一个要素,发布时间是第二个要素,按权重和时间的降序排列

  默认情况下,首先关键词代表一个热门话题,然后将这些热门话题聚类。将关键词集中的第一个关键词作为第一个热门主题线索,使用关键词查找文章 关键词进行聚类,并默认情况下搜索第一个文档作为热门主题,然后按页面文本的其余部分被聚类,并且余弦角用于计算该主题与现有热门主题之间的相似度。如果相似度超过阈值P,则将当前主题合并到现有主题中;如果相似度小于阈值P,则将其作为当前新主题。然后将其余页面与关键词集中的第二个关键词聚类。迭代执行该算法,直到处理要分析的页面或达到设置的主题数为止。

  3. 2智能跟踪模型

  参考文献:

  [1]李恒勋,张华平,秦鹏。基于主题的互联网热点话题的发现[C]。第五届全国信息检索会议论文集,北京,2009:134-14 3.

  [2]张守华,刘振鹏。网络舆论热点话题聚类方法研究[J]。小型微型计算机系统,2013(3):18-1 9.

  关于作者:张维佳(1982-),女,硕士,讲师,研究方向:计算机技术。

  作者单位:河北大学,河北保定071000

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线