免费:微信公众号数据采集

优采云 发布时间: 2020-10-16 08:09

  微信公众号数据采集

  内容

  最近统计感兴趣的公共帐户的阅读数据。本文文章将记录实施过程。本文仅用于学习和交流,请勿将其用于其他目的。

  一、采集官方帐户文章 URL

  该程序的主要考虑因素是在窗口下运行。在运行之前,请确保您具有python和相关python插件的基本运行环境。

  1.操作环境1. Webdriver

  确保窗口环境中有Google浏览器。如果您使用的Google浏览器版本不支持程序中提供的网络驱动程序,则有以下解决方案:

  首先,在您的计算机上下载与Google浏览器版本相对应的网络驱动程序

  第二个是安装文件中提供的gongle浏览器

  第三种方法是自行查找其他浏览器的相应网络驱动程序(此处不推荐这样做,除非您可以解决遇到的问题)

  2.python操作环境

  python版本> =3.6

  3.cx-oracle

  版本5.3此版本对应于服务器上的oracle数据库版本11g,无法连接其他版本

  pip install oracle == 5.3

  4.lxml

  execl文件操作所需的插件

  pip install lxml

  5.注册一个微信官方帐户

  也使用现有的

  2.采集 文章连接1.配置config.txt

  

  可以使用多个正式帐户配置此文件。该程序将下载已配置的官方帐户的文章 url 采集。请注意,格式为:

  每个正式帐户只有一行

  正式帐户名称开始时间结束时间

  需要采集的正式帐户名,并且采集的开始时间和结束时间用空格分隔。该程序只会在开始时间和结束时间之内保存文章的数据。

  2.启动程序

  单击JZTravel_Artical_Url.bat,在微信上扫描,登录到微信公众号,成功登录后,您将进入微信公众号页面,请勿关闭此页面,因为程序会自动退出该页面,并且程序将采集 文章 url。

  

  

  

  程序运行后,将在data文件夹中生成相应的文件,其中收录需要采集的微信官方帐户文章的网址。

  

  注意:在登录过程中,可能会出现以下错误,请放心,这可能是当前的网络问题,导致页面上的数据无法完全加载,请重试几次。

  

  二、采集 文章详细信息1.配置detail_config.txt

  

  采集官方帐户详细信息配置文件

  注意:由于使用cookie,该文件只能配置一个正式帐户信息,并且要求采集的正式帐户必须与cookie中的连接相对应,格式为

  官方帐户名|数据存储方法

  需要采集的正式帐户。存储方法用“ |”分隔。共有三种软件包存储方法,xls(另存为execl,oracle)保存到oracle数据库,其他(同时保存到execl文件和Oracle数据库)。根据实际需要选择。

  2.启动程序

  单击JZTravel_Artical_Detail.bat,程序将自动采集 文章详细数据。

  

  注意:

  错误1:程序中发生以下错误时,它不会影响采集程序,也不会影响采集的结果

  

  错误2:如果程序中发生以下错误,则是由于Cookie失败引起的。您需要再次导入cookie数据。不用担心,已重复采集的文章数据将不会重复采集。

  

  错误三:程序中出现以下错误时,将打开由采集器程序编写的Excel文件,并且需要关闭该文件以重新启动程序,即,在采集器期间无法打开execl文件。 采集。

  

  三、数据

  考虑到正在运行的爬网程序的实际网络环境,此处使用多个数据备份。包括数据本地文件备份和数据库备份。

  1.数据库

  

  2.Execl

  根据采集日期分别保存。

  

  本文仅用于学习和交流,请勿将其用于其他目的。技术支持(扣除):3165845957

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线