总结:数据采集-微信公众号文章的完整爬取过程笔记
优采云 发布时间: 2020-12-19 13:17总结:数据采集-微信公众号文章的完整爬取过程笔记
微信公众号文章的完整抓取过程笔记
基于sougou-api的概述一.实现文章爬网[基于anyproxy的二.和Monkeyrunner 文章基于sougou-api的自动爬网一.以实现文章爬网
1.可以直接获取微信搜狗首页
2.使用现有的软件包+代理方法
调用该API,并通过微信官方帐户文章的ID获取帐户的一部分
此方法只能获取微信文章的临时链接,因此您需要将html文本保存到其中
二. 文章基于anyproxy和Monkeyrunner的自动爬网
假设:您有一批微信公众号ID(例如:gh_1380fb0258f6)
硬件条件:普通PC(我使用Windows系统),Android手机(我使用Huawei Honor 8lite)
尽量不要使用模拟器。使用*敏*感*词*登录微信后,发现该帐号被封锁! ! !
目标:抓取该微信官方帐户文章的所有历史记录并逐步抓取
1.根据anyproxy 文章抓取所有正式帐户
伟大的上帝已经实现了这一步,他的代码直接在这里使用:wechat_spider微信爬虫
有关具体实现过程,请参考github,在这一步您需要注意选择正确的IP
2.基于Monkeyrunner的爬网自动化(1)手机打开开发人员模式
作者当前遇到手机以打开开发人员模式的方式是“在系统版本号上单击7、8次”
([2)PC安装Android开发套件
有关Android SDK的下载和安装,请参阅AndroidDevTools
有关安装是否成功的检测方法,请参阅:Monkeyrunner1-monkeyrunner入门记录和回放
([3)自动抓取过程S1使用微信搜索框通过微信官方帐户ID搜索该帐户
图片
图片
S2单击以输入帐户,下拉,单击所有文章,输入
图片
S3下拉列表,在文章列表中单击文章文章将其打开
图片
S4等待一段时间,然后返回微信首页,继续执行S1爬虫爬网策略摘要
抓取微信公众号文章可用于舆论监测
我认为有两种方法:
1.监视微信官方帐户文章上的点赞次数,找到“爆炸性风格” 文章,监视爆炸性风格文章的主题或事件