微信公众号文章采集计划

优采云 发布时间: 2020-08-05 08:03

  方案1: 基于搜狗门户

  从可以在Internet上搜索的官方帐户文章中采集的相关信息来看,这是最,最直接,最简单的解决方案.

  一般过程是:

  如果收款频率太高,验证码将显示在搜狗搜索中,并可以访问官方帐户历史记录文章列表. 直接使用常规脚本集合无法获得验证码. 在这里,您可以使用无头浏览器通过对接和编码平台访问和识别验证码. 硒可以用作无头浏览器.

  即使是无头浏览器也存在问题:

  如果您坚持使用搜狗门户并希望执行完美的采集,则只能增加代理IP. 顺便说一句,甚至不要考虑公开一个免费的IP地址,它非常不稳定,并且基本上被微信阻止.

  除了Sogou / WeChat反爬虫机制外,采用此解决方案还有其他缺点:

  方案2: 对手机微信的中间人攻击

  中间人攻击是一种用于拦截客户端与服务器之间的通信的黑客技术. 该方案的思想是在手机微信和微信服务器之间建立一个``HTTPS代理'',以拦截通过手机微信获取的官方账号商品信息. 常规步骤是:

  该方案可以自动化的原因是:

  此方案的优点:

  当然,有很多缺点:

  此方案仍有一些变体,例如:

  但是所有人都有“无法准确稳定地控制”的缺点

  方案3: 网页微信封包捕获分析

  长期被微信反爬虫滥用后,与同事们集思广益,找到了新的微信公众号文章爬行计划. 只需分析哪些门户网站可以获取数据. Fuzzy记得网页微信具有读取官方帐户上的文章的功能. 我碰巧玩了一段时间的个人微信机器人,主要是使用Python包ItChat. 其实现的原理是捕获和分析网页微信,并将其汇总为个人微信界面. 目的是可以实现网页微信可以实现的所有功能. . 因此,有一个通过ItChat进行的初步计划,可以让WeChat官方帐户文章继续进行下去. 我下班时向同事提到了它. 他也很感兴趣. 验证代码在第二天实施(相应功能代码的ItChat实现非常简短,在可以直接使用内容分析部分之前先完成内容分析部分).

  此方案的主要过程是:

  此方案的优点是:

  当然有缺点:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线