文章采集api(一种基于网络爬虫和新浪API相结合的微博数据采集方法)

优采云 发布时间: 2021-09-24 15:01

  文章采集api(一种基于网络爬虫和新浪API相结合的微博数据采集方法)

  本发明涉及微博数据采集技术领域,尤其涉及一种基于网络爬虫与新浪API相结合的微博数据采集方法。

  背景技术:

  采集对于微博中的数据非常重要,也可以为微博社会安全事件的检测提供重要的数据依据。目前微博数据采集主要有两种方式:基于新浪API和针对新浪微博平台的网络爬虫。基于新浪API的方案可以获取相对规范格式的数据,但调用次数有限,无法进行*敏*感*词*数据爬取,无法获取部分信息;基于网络爬虫的方法虽然可以获得海量数据,但其页面的分析处理过程较为复杂,其爬取的数据格式不规范,噪声数据较多。

  技术实现要素:

  本发明的目的在于解决现有技术的不足,提供一种基于网络爬虫与新浪API相结合的微博数据获取方法。

  为实现上述目的,本发明是按照以下技术方案实施的:

  一种基于网络爬虫和新浪API结合的微博数据采集方法,包括以下步骤:

  Step1:基于新浪API从微博名人榜中获取*敏*感*词*用户及其对应的粉丝用户和关注用户,并添加到*敏*感*词*列表中;

  Step2:将*敏*感*词*列表转换为*敏*感*词*URL,并判断*敏*感*词*用户列表是否为空,如果为空,转步骤4,否则转步骤3;

  Step3:遍历*敏*感*词*列表,利用网络爬虫的方法抓取*敏*感*词*用户的相关微博信息、微博评论信息和用户个人信息,将微博评论用户加入*敏*感*词*列表;

  第四步:结束。

  具体来说,Step3包括:

  获取*敏*感*词*列表中待爬取的URL,进行URL分析和信息获取,包括:获取用户信息URL,进入对应页面抓取用户粉丝、关注者等用户相关信息;获取用户微博URL并进入对应页面爬取微博转发赞、评论用户、爬取微博评论文字、爬取其他微博相关信息;并抓取用户、关注者、关注者、用户、微博转发点赞、评论用户、抓取微博评论文本、抓取其他相关微博数据等相关信息,建立相应的微博数据资源库;同时,将抓取到的用户、粉丝、用户和关注用户、抓取到的微博转发给赞、评论用户加入*敏*感*词*列表。

  与现有技术相比,本发明将新浪API与新浪微博平台的网络爬虫相结合,不仅可以获取相对规范格式的微博数据,还可以进行*敏*感*词*的数据爬取。数据格式更加规范,噪声数据更少,可为微博社会安全事件的检测提供重要的数据依据。

  图纸说明

  图1是本发明的流程图。

  详细方法

  下面结合具体实施例对本发明作进一步说明。本发明的示例性实施例和描述用于解释本发明,但并不用于限制本发明。

  如图所示。1、本实施例基于网络爬虫与新浪API结合的微博数据采集方法包括以下步骤:

  Step1:基于新浪API从微博名人榜中获取*敏*感*词*用户及其对应的粉丝用户和关注用户,并添加到*敏*感*词*列表中;

  Step2:将*敏*感*词*列表转换为*敏*感*词*URL,并判断*敏*感*词*用户列表是否为空,如果为空,转步骤4,否则转步骤3;

  Step3:遍历*敏*感*词*列表,利用网络爬虫的方法抓取*敏*感*词*用户的相关微博信息、微博评论信息和用户个人信息,将微博评论用户加入*敏*感*词*列表。具体步骤为: 获取*敏*感*词*列表 待爬媒体中待爬取的URL,以及URL分析和信息获取,包括:获取用户信息URL并进入相应页面,从微博抓取用户粉丝用户和关注用户数据资源库,抓取用户其他相关信息;用户的微博网址,进入对应页面,从微博数据资源库中抓取微博,转发赞、评论用户、抓取微博评论文字、抓取微博其他相关信息;同时,被抓取的用户和粉丝关注的用户,

  第四步:结束。

  根据本实施例的方法采集完成微博数据后,可以对采集接收到的微博文本数据进行处理,去除其中的异常数据和噪声数据,数据格式可以构建相应的微博资源库,可以为微博社会安全事件的检测提供重要的数据基础。

  本发明的技术方案并不限于上述具体实施例的限定,凡根据本发明的技术方案所作的技术修改,都属于本发明的保护范围。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线