通过关键词采集文章采集api(基于API的微博信息采集系统设计与实现-精品资料)

优采云 发布时间: 2021-11-15 04:12

  通过关键词采集文章采集api(基于API的微博信息采集系统设计与实现-精品资料)

  基于API的微博资料采集系统设计与实现-精品资料本文档格式为WORD,感谢阅读。最新最全的学术论文、期刊、文献、年终总结、年终报告、工作总结、个人总述职报告、实习报告、单位总结总结:微博已经成为重要的网络信息来源。本文分析了微博信息采集技术的相关方法和方法,提出了一种基于API的信息采集方法,然后设计了一个可以采集相关的信息采集系统新浪微博上的信息。实验测试表明,信息采集系统可以快速有效地采集新浪微博信息。关键词:新浪微博;微博界面;资料采集; C#语言TP315 1009-3044(2013)17-4005-04 微博[1],微博的简称,是一个基于用户关系的信息分享、传播、获取平台。用户可以更新140字左右的信息通过WEB、WAP、各种客户端组件个人社区,实现即时共享 中国互联网络信息中心 第31次中国互联网络发展状况统计报告,截至2012年12月下旬,截至12月下旬2012年我国微博用户规模为3.9亿,比2011年底增加5873万。微博用户占比比上年底提高6个百分点,达到5< @4.7%[2].随着微博网络影响力的迅速扩大,

  在公众的参与下,微博已经成为一个强大的虚拟社会。微博已成为网络信息的重要来源。如何快速有效地使用采集微博信息已成为一项具有重要应用价值的研究。研究方法和技术路线 国内微博用户以新浪微博为主,因此本文拟以新浪微博为例,设计研究方法和技术路线。通过对*敏*感*词*科技文献和实际应用案例的分析,发现目前新浪微博的信息采集方法主要分为两类:一类是“模拟登录”、“网络爬虫”[ 3]、“网页内容”“分析”[4]信息采集 三种技术相结合的方法。二是基于新浪微博开放平台的API文档。开发者自己编写程序调用微博的API进行微博信息采集。对于第一种方法,难度较高,研究技术复杂,尤其是“模拟登录”这一步。需要随时跟踪新浪微博的登录加密算法。新浪微博登录加密算法的变化会导致“网络爬虫”。《采集的失败最终导致微博信息缺失。同时,“网络爬虫”采集访问的网页需要“网页内容分析”,存在明显差距与基于 API 的数据相比,效率和性能之间存在差异采集。基于以上因素,本文拟采用第二种方法进行研究。基于新浪微博开放平台API文档的微博信息采集系统主要采用两种研究方法:文档分析法和实验测试法。文档分析方法:参考新浪微博开放平台的API文档,将这些API描述文档写成单独的接口文件。

  实验测试方法:在VS.NET2010模式下开发程序调用接口类,采集微博返回的JOSN数据流,实现数据采集的相关测试开发。基于以上两种研究方法,设计本研究的技术路线:首先,申请新浪微博开放平台的App Key和App Secret。审核通过后,阅读理解API文档,将API文档描述写入API接口代码类(c#语言),然后测试OAuth2.0认证。认证通过后,可以获得Access Token,从而有权限调用API的各种功能接口,然后通过POST或GET调用API端口。最后返回JOSN数据流,最后解析这个数据流并保存为本地文本文件或数据库。详细技术路线如图1。 研究内容设计微博信息采集系统功能结构如图2所示。系统分为七个部分,即:微博界面认证、微博用户登录、登录用户发送微博、采集当前登录用户信息、采集他人用户信息、采集他人用户微薄、采集学校信息、采集微博信息内容. 微博接口认证:访问新浪微博的大部分API,如发微博、获取私信等,都需要用户身份认证。目前新浪微博开放平台上的用户身份认证包括OAuth2.

  因此,系统设计开发的第一步就是做微博界面认证功能。2) 微博用户登录:通过认证后,所有在新浪微博上注册的用户都可以通过本系统登录并发布微博。3)采集登录用户信息:用户登录后,可以通过本系统查看自己的账号信息、自己的微博信息以及关注者的微博信息。4)采集 其他用户信息:这个功能主要是输入微博用户的昵称,可以采集获取昵称用户的账号信息,比如他有多少粉丝有和他关注哪些人,有多少人关注他,这个信息在微博中也很有价值采集。5)采集 其他用户的微博:该功能也使用微博用户的昵称来采集更改用户发送的所有微博信息。这个功能的目的是在以后扩展,以便每隔一个时间段自动将目标集合中多个微博用户的微博信息采集到本地进行数据内容分析。6)采集学校信息:该功能通过学校名称的模糊查询,获取学校微博账号ID、学校所在区域、学校信息类型。这是采集学校在微博上的影响力的基本数据。7)采集微博信息内容:您可以点击微博内容关键词查询,采集这条微博信息收录本关键词。然而,

  主要功能实现3.1 微博界面鉴权功能新浪微博API访问大部分需要用户鉴权,本系统采用OAuth2.0方式设计微博界面鉴权功能,新浪微博鉴权流程如图3.总结本文主要对微博信息采集的方法和技术进行了一系列的研究,然后设计开发了一个基于API的新浪微博信息采集系统,实现了微博信息采集的基本信息。微博采集,在一定程度上解决了微博信息采集的自动化和结果数据采集的格式标准化。不过目前微博信息采集 本系统的方法只能输入单个“关键词”采集进行唯一匹配,没有批量多个“搜索词”采集,没有“topic-type” ”微博信息采集功能,所以下一步的研究工作就是如何设计主题模型来优化系统。参考资料:文锐。微博知乎[J].软件工程师, 2009 (12): 19-20. 中国互联网络信息中心. 第31次中国互联网络发展状况统计报告[ EB/OL]. (2013-01-15).http: //./hlwfzyj/hlwxzbg/hlwtjbg/201301/t201301 15_38508.htm.罗刚, 王振东. 编写自己的网络爬虫[M]. 北京: 清华大学出版社, 2010.于曼泉、陈铁瑞、徐洪波。基于block的网页信息解析器的研究与设计[J]. Computer Applications, 2005, 25 (4): 974-976. NickRandolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 201<基于单元的异常值提取算法研究大学生开展全过程创业指导教育的有效策略,校园网双出口策略路由实现链路备份解决方案,ECFA签约后大学生职业价值观研究回顾小学教师职业道德建设道路工程课程教学研究与探索*敏*感*词*高等教育学生问题与策略动态路由应用的困境与出路基于GPS技术的物流配送系统算法[J]. 一种化学实验废气吸收装置的设计与应用。一种拟线性双曲线-抛物线奇异摄动方程数值解我们为什么喜欢机器人灵感大学课堂最新最全的教学方法[学术论文][总结报告][演讲][领导讲话][经验分享][聚会]建材] [常用论文] [分析报告] [申请文件] 免费阅读下载 *本文采集于网络,版权归原作者所有。如果侵犯了您的权益,请留言。我会尽快处理,非常感谢。* 基于单元的离群点提取算法研究大学生开展创业指导教育全过程的有效策略,校园网双出口策略路由实现链路备份解决方案,ECFA签约后大学生职业价值观研究回顾小学教师职业道德建设道路工程课程教学研究与探索*敏*感*词*高等教育学生问题与策略动态路由应用的困境与出路基于GPS技术的物流配送系统算法[J]. 一种化学实验废气吸收装置的设计与应用。一种拟线性双曲线-抛物线奇异摄动方程数值解我们为什么喜欢机器人灵感大学课堂最新最全的教学方法[学术论文][总结报告][演讲][领导讲话][经验与体会] [党建资料] [常用论文] [分析报告] [申请文件] 免费阅读下载 *本文采集于网络,版权归原作者所有。如果侵犯了您的权益,请留言。我会尽快处理,非常感谢。*

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线