免费:微信公众号数据采集
优采云 发布时间: 2020-10-16 08:09微信公众号数据采集
内容
最近统计感兴趣的公共帐户的阅读数据。本文文章将记录实施过程。本文仅用于学习和交流,请勿将其用于其他目的。
一、采集官方帐户文章 URL
该程序的主要考虑因素是在窗口下运行。在运行之前,请确保您具有python和相关python插件的基本运行环境。
1.操作环境1. Webdriver
确保窗口环境中有Google浏览器。如果您使用的Google浏览器版本不支持程序中提供的网络驱动程序,则有以下解决方案:
首先,在您的计算机上下载与Google浏览器版本相对应的网络驱动程序
第二个是安装文件中提供的gongle浏览器
第三种方法是自行查找其他浏览器的相应网络驱动程序(此处不推荐这样做,除非您可以解决遇到的问题)
2.python操作环境
python版本> =3.6
3.cx-oracle
版本5.3此版本对应于服务器上的oracle数据库版本11g,无法连接其他版本
pip install oracle == 5.3
4.lxml
execl文件操作所需的插件
pip install lxml
5.注册一个微信官方帐户
也使用现有的
2.采集 文章连接1.配置config.txt
可以使用多个正式帐户配置此文件。该程序将下载已配置的官方帐户的文章 url 采集。请注意,格式为:
每个正式帐户只有一行
正式帐户名称开始时间结束时间
需要采集的正式帐户名,并且采集的开始时间和结束时间用空格分隔。该程序只会在开始时间和结束时间之内保存文章的数据。
2.启动程序
单击JZTravel_Artical_Url.bat,在微信上扫描,登录到微信公众号,成功登录后,您将进入微信公众号页面,请勿关闭此页面,因为程序会自动退出该页面,并且程序将采集 文章 url。
程序运行后,将在data文件夹中生成相应的文件,其中收录需要采集的微信官方帐户文章的网址。
注意:在登录过程中,可能会出现以下错误,请放心,这可能是当前的网络问题,导致页面上的数据无法完全加载,请重试几次。
二、采集 文章详细信息1.配置detail_config.txt
采集官方帐户详细信息配置文件
注意:由于使用cookie,该文件只能配置一个正式帐户信息,并且要求采集的正式帐户必须与cookie中的连接相对应,格式为
官方帐户名|数据存储方法
需要采集的正式帐户。存储方法用“ |”分隔。共有三种软件包存储方法,xls(另存为execl,oracle)保存到oracle数据库,其他(同时保存到execl文件和Oracle数据库)。根据实际需要选择。
2.启动程序
单击JZTravel_Artical_Detail.bat,程序将自动采集 文章详细数据。
注意:
错误1:程序中发生以下错误时,它不会影响采集程序,也不会影响采集的结果
错误2:如果程序中发生以下错误,则是由于Cookie失败引起的。您需要再次导入cookie数据。不用担心,已重复采集的文章数据将不会重复采集。
错误三:程序中出现以下错误时,将打开由采集器程序编写的Excel文件,并且需要关闭该文件以重新启动程序,即,在采集器期间无法打开execl文件。 采集。
三、数据
考虑到正在运行的爬网程序的实际网络环境,此处使用多个数据备份。包括数据本地文件备份和数据库备份。
1.数据库
2.Execl
根据采集日期分别保存。
本文仅用于学习和交流,请勿将其用于其他目的。技术支持(扣除):3165845957