基于内容的网络水军识别方法及系统的社交网络信息
优采云 发布时间: 2021-06-07 21:39
基于内容的网络水军识别方法及系统的社交网络信息
本发明涉及社交网络中的网络海军识别领域,具体涉及一种网络上海军力量的自动识别方法及系统,以实现对社交网络中海军力量的更加自动化、准确的识别。网络。
背景技术:
随着社交网络相关应用的快速发展,人们越来越多地将活动转移到社交网络上。社交网络通常包括国外的Facebook、Google+、Twitter等和国内的新浪微博、腾讯微博、人人网等。但是,目前社交网络中存在大量的在线海军力量。社交网络的海军力量通常会助长在线信息的传播或恶意攻击某些社交网络帐户。他们受政治和商业利益的驱使。为达到影响网络舆论、扰乱网络环境等不正当目的,操纵软件机器人或海军账号,在互联网上制造和传播虚假言论和垃圾信息。这些行为严重影响了社交网络的用户体验,也带来了严重的安全问题。
网络海军现有的社交网络识别方法主要是利用社交网络的消息内容。一种比较简单的基于内容的网络水军检测方法(K. Lee, J. Caverlee, and S. Webb. Uncovering social spammers: social honeypots+machine learning. In Proceedings of SIGIR, 2010)就是把它作为监督学习问题。这些方法从社交网络的消息内容中提取有效的文本特征来构建分类器。给定一个新用户,分类器输出一个分类标签来确定新用户是否是网络海军。然而,这些方法通常需要大量的标注数据(通常是人工标注的数据),费时费力,人工标注的数据集很小,这给社交网络中的网络海军检测带来了巨大的挑战。
技术实现要素:
由于以前海军部队的社交网络识别方法大多将其作为分类问题,因此需要使用大量标记数据集。但标注数据需要大量人力,标注数据集规模普遍较小,训练模型的泛化能力较弱。
基于此,本发明的目的在于提供一种网络海军自动识别方法及系统。该方法和系统不需要对数据集进行人工标注,避免了耗时费力的标注工作,也不需要模型训练。同时,它可以快速有效地识别社交网络中的网络海军。
针对上述不足,本发明采用的技术方案是:
一种网络海军自动识别方法,步骤包括:
1)采集社交网络中已验证账号的消息信息以及每条消息下的评论信息;
2)监控以上每条消息下的每条评论信息是否已被删除,如果有,则读取该评论信息对应账号的历史删除评论数;
3)如果上述账号的历史删除评论数满足预设条件,则该账号为网络海军。
此外,步骤1)包括以下步骤:
1-1)社交网络用户模拟登录;
1-2)获取社交网络已验证账号列表,采集每个已验证账号的消息信息;
1-3)获取消息列表,以及每条消息下的采集评论信息。
另外,1)步骤中的验证账号是指通过社交网络官方验证的账号;验证账户类型包括政府机构账户、国际组织账户、新闻媒体账户和个人账户。
进一步地,步骤1)的消息信息包括但不限于消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数;评论信息包括但不限于评论地址、评论内容、评论时间、评论用户。
另外,如果1)步骤中提到的消息信息发布时间超过一个月,该消息信息将被删除。
进一步,步骤2)具体为:获取每条消息下的评论信息的评论列表,监控评论列表中每条评论信息的删除;如果评论信息被删除,查看评论信息对应账号历史记录中删除的评论数。
另外,步骤3)中提到的预设条件包括:
1)Da>=10;其中 Da 代表帐户历史记录中删除的评论总数;
2)Da/Na>=0.2;其中Na代表该账号的评论总数;
3)账号历史第一条删除评论与其最近删除评论的时间间隔大于一周。
一种网络海军自动识别系统,包括data采集模块和海军识别模块;
数据采集模块用于采集社交网络中认证账号的消息信息和每条消息下的评论信息;
海军识别模块用于监控和区分上述消息信息和每条消息下的评论信息。
另外,系统还包括数据存储模块,用于存储上述消息信息和每条消息下的评论信息。
此外,海军识别模块包括评论监控模块和海军识别模块;
评论监控模块,用于监控上述每条消息下的每条评论信息是否已被删除,如果有,则读取该评论信息对应账号的历史删除评论数;
海军识别模块用于判断上述账号的历史删除评论数量是否满足预设条件,如果满足,则该账号为网络海军。
传统的网络海军识别方法一般采用机器学习监督学习方法,需要大量标记数据集进行模型训练。并且数据集通常需要大量的人力进行标注。本发明提供了一种网络海军力量自动识别方法及系统,其优点主要体现在:
1、 这种方法和系统消除了人工标注工作,不需要模型训练。
2、该方法和系统可以快速有效地识别社交网络中的网络海军,即当一个账号的评论信息的历史删除评论数量满足预设条件时,确定帐户是网络海军。
3、该方法和系统适用于多个社交网络,可以跨平台运行。
图纸说明
图1为本发明提供的网络海军自动识别系统架构图。
图2为本发明提供的网络海军自动识别方法流程图。
具体实现方法
为使本发明的上述特点和优点更易于理解,特举出以下实施例,并结合附图详细说明如下。
本发明为网络海军提供了一种自动识别方法及系统。请参考图1。系统包括数据采集模块、数据存储模块和海军识别模块;
数据采集模块用于采集社交网络中认证账号的消息信息和每条消息下的评论信息;
数据存储模块用于存储上述消息信息和每条消息下的评论信息;
海军识别模块用于监控和区分上述消息信息和每条消息下的评论信息。
海军识别模块还包括评论监控模块和海军鉴别模块;评论监控模块,用于监控上述每条消息下的每条评论信息是否被删除,如果是,则读取该评论信息该账号对应的历史删除评论数;海军识别模块用于判断该账号的历史删除评论数量是否满足预设条件,如果满足,则该账号为网络海军。
本发明的方法主要包括两部分:
1)采集 社交网络中验证账号下的用户消息:利用模拟Ajax技术模拟用户访问社交网络的方式,设计并实现了采集和社交网络用户消息的存储,如图图1.数据的采集部分和数据存储部分通过采集获取社交网络中一些认证账号的消息信息,获取每条消息下的评论信息。已验证账号是指已经过社交网络官方验证的账号(每个账号对应一个用户),通常在已验证账号头像的右下角会附加一个V;用户消息是指用户在社交网络上的发布信息,包括消息内容、消息发布者、消息发布时间等。
2)识别社交网络中的网络海军:使用评论监控模块实时监控每条消息下的评论信息,并与现有评论进行比较,以监控评论的删除。如果同一社交网络用户的删除评论数量满足预设条件,则确定为网络海军。
下面是一个具体的实施例来解释本发明。请参考图1和图2。该方法的具体步骤包括:
1、采集 社交网络中已验证帐户下的用户消息可分为3个步骤:
a) 用户模拟登录。通过表单模拟登录,登录后将cookie信息保存到登录池中。新线程使用cookie信息恢复登录。
b) 数据采集。完成社交网络用户的模拟登录后,网关处的Http请求记录结合Chrome Ajax网络请求日志提取Ajax行为模板。基于用户模拟登录,特定目标的社交网络网页内容基于模板采集。
c) 网页内容分析和提取。对获取的网页内容进行分析提取,获取用户的留言信息和每条留言下的评论信息。
2、识别社交网络中的网络海军:可以分为5个步骤:
a) 识别社交网络认证账户:即采集已经通过社交网络认证的账户。比如推特认证的Blue V账号“Donald J. Trump”。
验证账号必须满足两个条件:1)账号必须是现实世界中存在的政府机构账号、组织账号、媒体账号、个人账号等; 2) 帐户必须通过社交网络验证。其中,认证账号的类型分为政府机构账号、国际组织账号、新闻媒体账号和个人账号。
b)采集使用数据采集模块,采集认证账号的消息信息,存储到消息信息库中。消息信息至少包括消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数。
c) 获取消息列表,使用数据采集module采集中每条消息下的评论信息,存储到评论信息库中。评论信息至少包括评论网址、评论内容、评论时间、评论用户。
d) 获取每条消息下的评论信息的评论列表,通过评论监控模块监控评论列表中每条评论信息的存在,即监控是否被删除。如果评论信息被删除,则读取评论信息对应的用户账号的历史删除评论条数,即该账号历史删除评论条数同时满足以下三个预设条件,且该账号立志做网络海军。本实施例中,三个预设条件为根据多次实验结果得出的最佳条件,预设条件如下:
1)Da>=w,w=10;其中 Da 代表帐户历史记录中删除的评论总数。
2)Da/Na>=v,v=0.2;其中 Na 代表该帐户的评论总数。
3)账号第一条删除评论与最近删除评论的时间间隔大于一周。
e) 重复步骤c)和d),直到每条消息的释放时间超过有效时间,然后删除消息信息。邮件生效时间设置为一个月。
以上实施方式仅用于说明本发明的技术方案,并不用于限制本发明。本领域普通技术人员可以在不脱离本发明的精神和范围的情况下,对本发明的技术方案进行修改或等效替换。本发明的保护范围以权利要求书为准。