网页采集器的自动识别算法(2016年网络舆情监测的重要途径智能及其分析工作智能)
优采云 发布时间: 2022-04-10 13:19网页采集器的自动识别算法(2016年网络舆情监测的重要途径智能及其分析工作智能)
摘要:当前,随着互联网的快速发展,网络社会与现实社会逐渐同步,线上与线下事件的关联性提高,网络舆论越来越能够反映现实中发生的事情。社会及时。因此,网络舆情监测不仅可以了解舆情,为相关决策部门制定预案提供参考,还可以通过大数据分析及时预警突发事件。以微博、贴吧、论坛、新闻评论等互联网信息为对象,以实用性为原则,研究一种基于文本自动分类的网络舆情监测方法。该方法通过网络爬虫抓取互联网上的信息,利用基于KNN算法的文本自动分类方法完成网络舆情的自动分类。最后通过实验验证了该方法的实用性。
关键词:文本分类;KNN算法;网络爬虫;舆情监测
CLC 编号:TP319 *敏*感*词*识别码:A 文章 编号:1672-7800 (2016)003-0133-03
作者简介:赵俊奇(1982-),男,上海人,硕士,上海市*敏*感*词*局助理工程师,研究方向为数据挖掘。
0 前言
随着互联网的飞速发展,特别是“自媒体”时代的到来,每个网民都可以对社会现象和问题发表自己的看法、意见和情感,对网络舆论产生了巨大的影响。根据中国互联网络信息中心发布的第36次统计报告,截至2015年6月,我国网民规模已达6.68亿。因此,线下发生的事情很快就会被网民传递到互联网上,线上和线下将逐渐融合。一方面,网络舆论能够真实反映公众对各种热点事件的看法,另一方面,互联网也成为了一种应急。网络舆情监测作为报警平台越来越重要[1]。但由于当前网络数据量大,人工整理舆情不仅效率低下,而且容易错过预警的最佳时机。舆情的自动分类和监测是实现网络舆情监测的重要途径。
目前,我国网络舆情研究方向比较薄弱,舆情分析不够智能。一个重要的原因是网络数据作为一个动态的海量数据源,每天都有成千上万的新词和新表达,这给相对困难的中文分词造成了很大的障碍[2]。本文以微博、贴吧、论坛、新闻评论等互联网信息为对象,通过网络爬虫及时获取数据信息,利用文本分类算法对获取的信息进行自动分类,监控网络舆论实时。同时,本文提出了对获取的数据信息进行结构化的思路。通过提取时间、地点、事件和事件的其他要素,采用权重设计,根据事件的影响力和重要性,设置阈值来进行应急事件。自动警告。实验表明,该分类方法在网络舆情的自动采集和监测中具有良好的效果。
1 相关工作
网络舆情监测涉及机器学习、数据挖掘、数理统计和自然语言处理等多学科领域知识,迄今已取得一系列研究成果[3]。
杨涛等人。[4]提出了一种网络舆情热点跟踪方法,并给出了一种基于舆情热点动态监测的算法,可以更好地捕捉当前热点事件。但由于只针对热点舆情,无法发挥综合舆情监测的作用,存在一定的局限性。黄小迪[5]等人在现有在线政问平台的基础上,结合政府部门的需求,提出了基于政府的舆情监测系统网站。系统包括综合舆情指数、政治排名指数、受众指数和互动指数4个指标,并根据重要性手动排名,有助于政府部门在实际工作中做好舆情监测工作。但由于其研究对象仅限于政府网站,无法充分反映网友的观点,也无法对突发事件及时预警。
美国TDT系统提出了一种舆情监测方法,用于话题监测和跟踪。该技术可以在互联网上的海洋数据中找到方向性的数据信息,并可以自动跟踪给定方向的舆情信息和相关的延伸话题。目前在定向监测领域有很好的应用,但该系统对未知突发信息的监测效果不佳[6]。
此外,国内以企业级搜索平台为核心的舆情管理系统提供商帮付,专门为政府研发了网络舆情监测系统。,包括紧急事件分析在内的多项功能,可以大大提高监控效率。但是,该系统基于模式匹配,需要人工根据监控目标的变化定期更改设置,智能性较差。
从以上分析可以看出,目前网络舆情的自动监测已经取得了一些进展,但在各种方法上也存在一定的不足。针对现有不足,以实用性为原则,研究了一种基于自动文本分类的网络舆情监测方法,以微博、贴吧、论坛、新闻评论等信息为对象。实验表明,该方法监测准确率高,随着监测信息量的扩大和分类的增加,召回率呈上升趋势,特别适用于*敏*感*词*网络舆情监测。
2 网络舆情自动分类
本文以网友发布的信息为出发点,通过网络爬虫及时爬取相关信息,根据本文设定的基于KNN算法的分类方法进行自动分类,实现舆情的自动分类。分类预先根据客观要求进行划分,将每一种类型表示为一个向量模型,并根据算法自动划分新增的信息。
2.1 个数据采集
本文利用网络爬虫,及时抓取微博、贴吧、论坛、新闻评论等信息。但是由于网页内容复杂,需要采集的有效信息只是其中的一小部分,大量干扰信息影响了采集工作的有效性。因此,data采集分为两个阶段,一个是通过爬虫爬取数据,一个是对爬取的数据进行过滤。在过滤阶段,我们专门制定了基于微博、贴吧、论坛、新闻评论格式的网页内容过滤规则,确保获取高精度的源数据。
2.2 舆情分类
舆情分类的本质是文本信息的分类。本文采用基于KNN算法的分类方法。该算法的主要思想是将具有许多相同属性的信息归为一类,而网络舆情信息具有这一特点。话题的舆论信息往往具有相同的特征[7]。
2.2.1 训练文本和新采集文本的特征向量表示
在对采集好的舆论信息进行分类之前,需要用特征向量来表达客观要求的分类。首先,根据客观需求的分类,给出一定数量的训练文本,训练文本中的数据可以根据需要定期增加或减少;其次,使用分词工具对作为训练文本的信息进行分词,选择具有代表性的特征项;最后将每个类别表示为一个特征向量,如公式(1).
3 网络舆情分析与预警
根据本文的自动分类方法,通过采集网友发布的信息并自动分类,形成不同类型的舆情模块,然后根据需要对各个模块中的信息进行汇总。同时,系统可以将采集收到的数据形式化,自动提取时间、地点、事件等要素,直接推送给相关决策部门,方便数据提取和舆情分析. 此外,监控模块中的紧急事件分类还可以提供紧急事件预警功能。根据分类数据的数量,可以设置需要报警的参数组成,实现自动预警。
为了分析这种网络舆情监测方法的效果,本文定义了量化指标,并通过不同的分类、不同的数据源进行了多次实验。
4.1 量化指标
为了分析和评价本次舆情分类的效果,本文提出了Precision Rate和Recall Rate两个评价指标。, 公式 (7) 显示。
某类准确率=正确分类到某类的新采集文本个数新分类到某类的采集文本总数(5)
总体准确度 = ∑ 每个类别的准确度类别总数 (6)
召回率 = 新 采集 文本分类新采集 文本总数 (7)
4.2 实验过程
为了进一步分析网络舆情监测方法的效果,本文依托现有的爬虫工具,通过多次随机抽取一定时间段的数据进行实验分析。全部网络舆情分为思想反应、问题倾向、工作动态、对策建议4类。得到的实验数据如表1所示。
根据实验数据可以发现,准确率和召回率都没有参考价值。因此,在此基础上将分类具体化,不再使用“思想反应”等抽象分类。同时增加类别,如股市证券、“十三五”规划、涉警突发事件等具体类别,并逐步增加类别。得到一组实验数据如表2所示。
实验发现,涉警突发事件的分类,由于该类型的特点,其数据源可以在短时间内集中,特征词比较单一,可以获得较好的实验结果,及时预警的此类事件。可以发挥更好的作用。
4.3 实验结论
通过以上实验可知,为了达到更好的舆情监测效果,应尽可能细化客观需求的分类;并且,随着分类数量的增加和覆盖范围的扩大,实验的召回率将进一步提高。.
5 结论
随着互联网的快速发展,在线数据量快速增长,难以依靠人工进行舆情监测。本文提出一种基于自动分类的网络舆情监测方法,可以有效地从海量互联网数据中监测各类舆情主体信息。在敏感舆情监测方*敏*感*词*有很好的实用价值。
参考:
[1] 马兰,亚历克斯。省级政府舆情监测:纽芬兰和拉布拉多开放线路广播的流行[J]. 加拿大通讯杂志,2013 (2):384.
[2] 贤一,程玲玲,等。基于语义内容识别的网络舆情监测分析系统框架[J]. 融合信息技术学报, 2010, 5 (10)@ >:48-55.
[3] 陈一进,曹树进,陈少驰,等.网络舆情信息监测研究进展[J]. 图书情报知识, 2011 (6): 41-49.
[4] 杨涛.智能信息处理技术在网络舆情分析中的应用[D]. 上海:同济大学,2008.
[5] 黄小迪. 政府网站舆情监测指标体系及运行机制设计[D].南京:南京大学,2013.
[6] 洪宇,张宇,刘婷,等。主题检测与跟踪的评价与研究综述[J].中国信息学报, 2007 (6): 71-87.
[7] 苏以娟,邓振云,程德波,等。大数据下的快速KNN分类算法[J]. 计算机应用研究, 2016 (4): 1-6.