Twitter数据采集以及情感分析方法

优采云 发布时间: 2020-08-31 10:15

  Twitter数据采集和情感分析方法

  2. 想知道如何使用Python进行情感分析.

  首先,我们打开Octoparse官方网站,下载最新的官方版本,然后按照说明完成注册. 登录后,打开内置的Twitter简单模板.

  

  采集的数据字段包括:

  首先在Twitter采集模板的关键字参数中输入“ Donald Trump”,然后单击“开始采集”以自动采集数据,如下图所示,这很简单,我大概采集了10,000多个Twitter推文. 您可以输入尽可能多的关键字来采集更多推文. 采集到推文数据后,将数据导出为文本文件,并将文件命名为“ data. TXT”.

  

  使用Python进行情感分析

  开始之前,请确保您的计算机已安装Python开发环境和文本编辑器. 我在文章中使用了Python2.7和Notepad ++文本编辑器.

  然后,我们使用由两个情感关键字列表组成的txt文件来分析以前采集的Twitter信息. 您可以在文章末尾下载这两个文件.

  这里的想法是将txt文件中的每个情感关键词提取到列表中,然后计算每个推文中这些关键词的出现频率,最后我们记录收录情感词的相应推文.

  首先,将正情绪和消费者情绪关键字分别存储在plist和nlist列表的两个txt文件中.

  

  然后,对来自采集的Twitter tweet进行数据清理,删除所有特殊符号(标点,数字等),并将每个tweet数据保存在word_list列表中.

  

  在数据处理之后,数据仅收录清除的tweet,这使数据分析更加容易. 稍后,我们将创建三个字典: wordcountdict,wordcountpositive和wordcountnegative.

  

  接下来,定义每个字典. 如果Twitter数据中出现相应的tweet,请添加1并将其存储在wordcountdict词典中.

  

  接下来,确定每条推文都收录正面或负面的情感关键词. 如果它收录积极的情感关键词,则在单词反义词词典关键词上加1,否则请确保该值相同. 如果它收录否定性情感关键字,则单词否定性关键字也是如此. 如果该推文不收录任何肯定或否定关键字,则不会处理任何内容.

  情绪分析: 正面或负面

  通过运行上述Python脚本,我得到了5,352个否定关键字和3,894个肯定关键字,它们被保存在上面的相应列表中,然后打开Tableau来创建气泡图,如下所示. 如果您不知道如何使用Tableau创建气泡图,请单击此处.

  

  从图中可以看出,很多肯定关键字是单方面的,只使用了404个肯定关键字,最常用的词是“ like”,“ great”和“ right”,大多数关键字是基本的. 更具口语性,例如“哇”和“酷”. 使用的否定关键字更加多样化. 他们中的大多数都非常正式和先进. 最常用的是“非法”,“谎言”和“种族主义者”. 也经常出现“惯犯”,“发炎”和“虚伪”之类的词.

  上述关键字还表明,支持者的教育程度低于反对者. 显然,唐纳德·特朗普在Twitter用户中并不受欢迎.

  摘要:

  在本文中,我们讨论了Octoparse软件如何捕获Twitter推文,还讨论了如何执行数据清理以及如何使用Python对Twitter推文进行情感分析. 要获取完整版本的代码,您可以在下面的链接中下载它.

  (/ octoparse / fd9e0006794754edfbdaea86de5b1a51)

  参考链接: /@datamonsters//~liub/FBS//jeffreybreen/twitter-sentiment-analysis-tutorial-201107/blob/master/data/opinion-lexicon-English//Home.html

  文章翻译为: / blog / text-mining-and-sentiment-analysis-using-python

  作者: Ashley Weldon

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线