总结:数据采集-微信公众号文章的完整爬取过程笔记

优采云 发布时间: 2020-12-19 13:17

  总结:数据采集-微信公众号文章的完整爬取过程笔记

  微信公众号文章的完整抓取过程笔记

  基于sougou-api的概述一.实现文章爬网[基于anyproxy的二.和Monkeyrunner 文章基于sougou-api的自动爬网一.以实现文章爬网

  1.可以直接获取微信搜狗首页

  2.使用现有的软件包+代理方法

  调用该API,并通过微信官方帐户文章的ID获取帐户的一部分

  此方法只能获取微信文章的临时链接,因此您需要将html文本保存到其中

  二. 文章基于anyproxy和Monkeyrunner的自动爬网

  假设:您有一批微信公众号ID(例如:gh_1380fb0258f6)

  硬件条件:普通PC(我使用Windows系统),Android手机(我使用Huawei Honor 8lite)

  尽量不要使用模拟器。使用*敏*感*词*登录微信后,发现该帐号被封锁! ! !

  目标:抓取该微信官方帐户文章的所有历史记录并逐步抓取

  1.根据anyproxy 文章抓取所有正式帐户

  伟大的上帝已经实现了这一步,他的代码直接在这里使用:wechat_spider微信爬虫

  有关具体实现过程,请参考github,在这一步您需要注意选择正确的IP

  2.基于Monkeyrunner的爬网自动化(1)手机打开开发人员模式

  作者当前遇到手机以打开开发人员模式的方式是“在系统版本号上单击7、8次”

  ([2)PC安装Android开发套件

  有关Android SDK的下载和安装,请参阅AndroidDevTools

  有关安装是否成功的检测方法,请参阅:Monkeyrunner1-monkeyrunner入门记录和回放

  ([3)自动抓取过程S1使用微信搜索框通过微信官方帐户ID搜索该帐户

  

  图片

  

  图片

  S2单击以输入帐户,下拉,单击所有文章,输入

  图片

  S3下拉列表,在文章列表中单击文章文章将其打开

  

  图片

  S4等待一段时间,然后返回微信首页,继续执行S1爬虫爬网策略摘要

  抓取微信公众号文章可用于舆论监测

  我认为有两种方法:

  1.监视微信官方帐户文章上的点赞次数,找到“爆炸性风格” 文章,监视爆炸性风格文章的主题或事件

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线