2018年微博词云项目深入分析

优采云 发布时间: 2020-08-09 01:11

  这个项目的最初想法应该在2018年10月. 当时我正在学习python,这个想法诞生了: 从今年用户发布的微博数据中提取最有意义的top50. 关键词. 显然涉及一些数据采集和自然语言处理方面的知识. 初步准备需要在微博开发平台上通过认证的开发人员;在微博开发平台上创建应用程序; 1个域名和1个服务器;微博应用程序创建和审查

  创建应用程序的目的是您的网站可以访问微博,使用微博登录和授权,并调用在微博上打开的一些API;高质量的应用程序和许多用户将被推荐到微博应用程序广场等.

  要创建一个应用程序,我们需要填写一些信息,例如应用程序名称,描述等. 只需将准备好的副本直接粘贴到其中;需要使用不同规格的应用程序图标以及三个或更多用于应用程序介绍的促销图像. 其中一个关键点是应用程序地址,它需要提供一个可访问的地址,其中收录微博组件. 提交这些内容后,您可以将它们提交进行审查. 微博应用程序审查相对较快,审查基本上将在一两天内完成.

  在审查了应用程序之后,您可以继续使用a*敏*感*词*ey和appsecret进行开发.

  微博数据采集

  由于微博的开放API接口不提供用户微博数据,因此使用了数据采集解决方案. 该工具的第一个版本是用nodejs编写的,后来更改为python版本.

  提取关键字

  我仍然在这里使用python进行处理:

  预处理(在微博中删除表情符号,标签等);分段(将整个句子分成词汇);加载词库(包括通用词库和用户定义的词库);删除停用词(删除一些无意义的词);计算TFIDF并按重量排序;拍摄前50个单词以生成词云图片. 并置项

  项目的基础结构是使用nodejs构建的,整个应用程序的路由访问控制,视图呈现,异常处理,日志采集和流程管理都使用nodejs完成.

  一般过程: 用户访问应用程序;引导用户进入微博授权页面;授权成功后,在后台获取uid,并开始新的子过程生成微博词云图像. 此时,用户返回到授予页面(此时,微博词云处理可能尚未结束);用户单击到下一页,如果图片已生成,将显示所显示的数据,否则,将给予用户等待的处理.

  是的,基本过程差不多,相对简单. 让我们看一下最终效果.

  

  

  

  

  

  重要知识点

  

  我们将html转换为画布,然后取出画布数据并将其放在img标签中. 将此img放在页面顶部,并将不透明度设置为0. 然后在微信,微博和其他应用中,长按保存到手机. 具体的实现代码请参见下图.

  

  摘要

  它是对某些交互的更详细处理,从而使用户拥有更好的操作体验和视觉效果. 该应用程序的视觉影响不大,哈哈.

  最后,欢迎大家一起交流.

  项目地址:

  2018我的微博词云

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线