基于API的微博信息采集系统设计与实现

优采云 发布时间: 2020-08-25 10:36

  基于API的微博信息采集系统设计与实现

  摘要:微博已成为网路信息的重要来源,该文剖析了微博信息采集的相关技巧与技术,提出了基于API的信息采集方法,然后设计了一个信息采集系统,能够对新浪微博的相关信息进行采集。实验测试表明,该信息采集系统就能快速有效地采集新浪微博信息。

  关键词:新浪微博;微博插口;信息采集;C#语言

  中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2013)17-4005-04

  微博[1],即微型博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用

  户可以通过WEB、WAP以及各类客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。中国互联网络信息中心的《第31次中国互联网路发展状况统计报告》显示,截至2012年12月底,截至2012年12月底,我国微博用户规模为3.09亿,较2011年底下降了5873万,网民中的微博用户比列较上年底提高了六个百分点,达到54.7%[2]。随着微博网路

  影响力的快速扩大,政府部门、学校、知名企业、社会公众人物均开通了微博。随着公众的参与,微博成为了一个强悍的虚拟社会,微博早已是网路信息的重要来源,如何用于快速有效地采集微博信息已然成为一个具有重要应用价值的研究。

  1 研究方式与技术路线

  国内的微博用户主要是新浪微博,因此本文拟以新浪微博为例,设计研究方式与技术路线。通过剖析*敏*感*词*的科技文献与实际应用案例,发现目前针对新浪微博的信息采集方法主要有两类:一种是“模拟登录”、“网页爬虫”[3]、“网页内容解析”[4]三种技术结合的信息采集方法,二是基于新浪微博开放平台的API文档,开发者自行编撰程序调用微博的API,进行微博信息的采集。对于第一种方式,难度比较高,研究技术复杂,特别是“模拟登录”这个步骤,需要随时跟踪新浪微博的登录加密算法,新浪微博的登录加密算法的改变,就会导致“网页爬虫”的失败,最后造成采集不到微博信息。同时,“网页爬虫”采集到的网页须要进行“网页内容解析”,效率与性能相比基于API的数据采集存在显著的差别。基于以上诱因,因此本文拟采用第二种方法进行研究。

  基于新浪微博开放平台API文档的微博信息采集系统,主要采用了两个研究方式:文档分析法和实验测试法。文档分析法:参考新浪微博开放平台的API文档,把这种API说明文档编撰为单独的插口类文件。实验测试法:在平台[5],以C/S模式开发程序来调用插口类,采集微博返回的JOSN数据流,实现数据采集的相关测试与开发。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线