解读:基于共词分析的文本主题词聚类与主题发现

优采云 发布时间: 2020-09-04 11:17

  基于共词分析的文本主题聚类和主题发现

  第29卷,2011年11月,第29卷,2011年11月11日,基于共词分析的文本主题词聚类和主题发现王小华,徐(杭州电子科技大学计算机应用技术研究所,浙江杭州31001) 8)重要提示:文本主题检测可以很好地挖掘大量信息中的关键因素,本文主要使用共词分析方法对文本主题词进行聚类,以发现当前主题,首先通过停用词过滤和TF-IDF [k20 ]提取技术提取主题词串,构造一个通用词矩阵,最后使用Bisecting K-means算法对主题词串进行聚类发现主题,实验结果表明该方法具有一定的热点主题提取能力。 关键词:共词分析; TF-IDF;共词矩阵;对分; K均值;主题中文图像分类号:G350文档标识码:A 文章序列号:1007-7634(201 [ k22] 11 -1621-04迪斯科基于文本主题词的共词分析方法王晓华,徐宁,陈志群(杭州大学电子科技大学计算机应用技术研究所,杭州310018)摘要:文本主题检测可以检测到最重要的方面,即基于分析常见词的信息,currenttheme。首先,我们提取关键词字符串,停用词IDF关键词提取技术,然后构造Co-wordmatrix。最后,通过二等分算法算法主题对关键词字符串聚类进行了分析。关键词:协同分析TF-IDF;共词矩阵平分k均值主题余弦距离的聚类计算。

  本文建议通过构造一个用于计算主题词之间距离的共项矩阵来对主题词进行聚类。候选关键词的提取信息索引的增加给用户获得有效资源带来了很大的麻烦。如何有效控制大量信息并有效发*敏*感*词*项目:浙江省自然科学基金项目(Y110017 6))作者简介:王小华(1961-),男,杭州人,教授,主要从事中文信息处理,数据挖掘,人工智能和应用研究,基于中国科学院ICTCLAS分词系统的二级标签匹配,从一批4G天语语料中的连词,叹词,介词,个人提取出协调连词。代词,定语疑问代词,时间疑问代词,谓语疑问代词,疑问代词,定语指示代词,时间指示代词,谓词指示代词,指示代词,代词与组合词,模式词技术的扩展。

  该词汇表收录900多个停用词,以及一些特殊符号(例如标点符号和数字),以及总共1176 2. 2TF-IDF热点关键词提取的频率,这些频率可以构成一个链接这些单词对中的通用单词矩阵。如果两个主题术语在许多文档中频繁出现,则意味着它们是紧密相关的。在共同词分析中,关键词的共同词分析形成一个N * N共同词矩阵。 3. 2文本主题词聚类在一个互连的共词网络中,一个主题和多个主题形成一个关系网络,在这个关系网络中很难区分哪些主题词是由类别组成的。为此,我们需要在数据挖掘中使用聚类分析。集群是信息组织的重要手段。根据对象自身之间的相似性将其分类并划分为群集。空间表示,距离计算和算法选择是聚类技术的三个关键要素。在距离计算中,常见的是余弦距离计算和欧几里得距离计算,其他距离计算包括Ming距离,Mahalanobis距离,Ran距离等。在本文中,主题词之间的距离的测量基于共词分析生成的公共词矩阵。根据同一文章文章中出现频率较高的主题词对,词对关系越近,它们之间的距离就越大。小思想的原则是计算同一条款文章中主题词同时出现的次数(不要累积在同一文档中,而是依次累积不同文档的同时出现),也就是说,主题距离与相关文献的文章数量是密切相关的,因此,共词聚类的结果客观客观地反映了文献群内容的现状。

  在聚类算法中,常用的聚类算法通常可以分为基于分区的聚类和分层聚类算法。本文采用Bisecting K-means聚类算法对形成的共词矩阵进行聚类,并与SPSS软件中的标准K-means聚类算法进行比较,结果表明Bisecting K-means算法的性能优于标准K。 -均值算法。二等分K均值算法的基本流程如下:步骤1:选择一个集群被分割,并且公共字矩阵以数组的形式输入。步骤2:通过特定策略从现有群集中选择一个群集。 TF-IDF是信息检索和信息探索中常用的加权技术。它是一种统计方法,用于评估单词对文档集或语料库中文档的重要性。单词的重要性与在文档中出现的次数成正比,但与此同时,它在语料库中出现的频率则成反比。 TF实际上是某个关键词出现的频率,而DF表示某个关键词在IDF中。本文用于计算IDF的公式如下:IDF = log((M + 1) / DF)表示语料库中文档的总数,DF是关键词的文档频率,其主要思想是:如果文档收录条目,则条目越少,即DF越小,IDF越大,表明条目具有很好的区分类别的能力。

  主题词的特征包括术语频率,文档频率和文档反向频率(IDF),例如:钱学森TF = 443 9、 DF = 123 7、航TF = 762 1、 DF = 1176,等等,通过基于共同词分析计算TF * IDF文本主题词聚类3. 1共同词矩阵的形成共同词分析方法最早是由法国文献计量学在1970年代中后期提出的。经过二十多年的发展,已被广泛应用于各个领域。到目前为止,共词分析方法已经在人工智能,信息科学,信息管理系统和信息检索领域得到了很好的应用。它使用语料库中词汇对或名词短语的共现来确定语料库代表的主题中主题之间的关系。同一文档中出现的词汇对越多,则关系越紧密,我们设计一个共同的词矩阵。结果,我们对出现在同一文档中的一组语料库主题词进行拆分,并使用标准的K-means算法找到2。步骤3:重复步骤2并进行拆分,以产生相对较高的相似性聚类。步骤4:如果已将其拆分为一个集群,或者达到了终止条件,则算法结束。实验结果分析4. 1系统运行环境系统环境配置:CPU Core2T6500,内存为11个文本主题聚类和主题发现,基于共词分析1623 2G,硬Seagate250G,7200r / m,运行Windows eclipse,SPSS软件。

  4. 2 TF-IDF 关键词提取实验已成为60 * 60的通用字矩阵,如表2所示。共同字矩阵共同字矩阵注册流感钱学森疫苗注册流感钱学森疫苗案例08我们的采集 Sina新闻网页被用作实验性语料库,该网页中的链接,导航和其他信息被删除,并被处理成纯文本形式,仅收录新闻标题和主要文本,因为它反映了真实的新闻环境。网络同时是系统的。从Sina.com 采集到964个文件,页面日期为2009年15月15日。首先,我们通过ICT-CLAS分词系统对采集的语料进行分割。分割后的语料库形式如下:没有钱学森,没有今天中国航天的演出,中国科学院北京十院院士,著名火箭专家指出,如果钱学森不回到中国,我个人认为中国航天今天有这样的表现,所以钱学森的中国航天新闻语料库通过分词进行预处理,然后我们过滤停用词。基于词性统计的停用词列表消除了一些对文章几乎没有干扰的词。然后我们根据TF-IDF语料库中的关键词对它们进行排序,并根据TF * IDF按降序对其进行排序。选择60个字串,结果几乎是本段中重要事件的关键词。它包括诸如“疫苗”,“疫苗接种”,“ H1N1”和其他重大事件的术语,以及重大事件中各个人的姓名:例如“钱学森”和“李怡”。

  该表显示了TF-IDF 关键词提取新闻语料库的前10个关键词提取结果。由于主题词对在同一文章文章中更频繁出现,因此它们之间的距离更小。我们进一步*敏*感*词*兵流感,钱学森总统受灾,开县温度,*敏*感*词*疫苗病例,航天航空奥巴马灾区,冷浪的二等分K均值聚类结果*敏*感*词*,母亲,考试,考试和评估,宾川县County灾,非法冷空气,监禁,天气,毕业生,抗震救灾*敏*感*词*4. 3构造共同的词矩阵。危重病患者的申请卫生部医疗事故崩溃判处三合会和被告帮会统计已提取了文档中的60个关键词字串,因此总共有60个关键词在字词分析中,我们在SPSS中使用标准的K-means算法软件和二等分K-均值SPSS软件的核心步骤:指定群集数K。

  确定一个初始班级中心。 SPSS软件的初始班级中心指示方法是通过系统指定方法。它将根据样本指定情况选择一个代表性样本作为初始类的中心点。根据最近距离的原则进行分类,并根据距每个类别的中心点最短距离的原则对所有样本进行分类,以形成各个类别的中心点。确定是否满足终止集群的集群条件。 SPSS基于三个聚类分析终止条件:首先,将迭代次数,SPSS设置为10,然后终止聚类。第二,聚类中心点SPSS 0. 02的偏移程度,当新确定的聚类中心点和先前聚类中心点之间的最大偏移小于0. 02时,聚类SPSS聚类结果终止从实验中将聚类结果与表格进行比较,我们可以得出结论,该实验中热门话题词的聚类结果反映了Sina.com上排名前十的热点新闻头条,表明该实验已取得了一定的结果。本文首先使用ICTCLAS自动提取TF-IDF关键字,从新闻语料库中提取新闻语料库的关键词。然后通过共词分析构造共词矩阵,并使用Bisecting K-means算法基于共词矩阵进行聚类。实验结果证明了该方法的正确性和可行性,对互联网上热点话题的发现也有一定的影响。下一步,我们将分析论坛的语料,并对在线舆论和跟踪技术的热点进行深入研究。

  报名参加女兵应届毕业生应届青年体检流感钱学森主席因开县温度史承进,成专流受灾。袁立驰,钟一新。基于混合聚类的中文词聚类[J]。微机信息,2010,26(5- 3):222-22 3.袁丽池,钟义新。基于相似度的词聚类算法[J]。微电子学与计算机, 2005,22(8):93-9 5. Zhou,et al。不同级别的中文文本主题自动提取研究[J]。中文信息学报,2001,15(4):20- 2 7. Master。互联网文本中主题的提取与组织研究[J]。中文信息,2008,22(3):64-7 0.疫苗病例流行性严重疾病卫生部医学评估航空航天与航空航天局的奥巴马的冷波*敏*感*词*母亲检查评估访问中国紧急情况宾川县救灾抗震救灾崩溃非法冷空气期监禁天气罪判*敏*感*词*兵的审判方法问题。今天,“白宫风云”揭晓了奥巴马总统访美的时间表希娜。与上海青年对话文献过滤技术[J] .KDD讲习班TextMining,2000,([3):53-6 5.薇.SPSS统计分析方法及应用[M]。北京:电子工业出版社,2009 :102-11 5.(主编:赵立军)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线