从网页抓取数据(web旧方案日志：,改了机制,模拟登录机制)

优采云发布时间: 2022-01-18 11:05

　　前言网

　　旧计划日志

　　2015年，微信网页版的限制还没有那么严格。当时的主要思路是用微信网页版，然后用requests来模拟登录，代码

　　然后继续访问类似如下的界面爬取信息：

　　('')

　　当时为了让爬虫的多实例运行，我用的是Celery框架（现在觉得是智障，跑多实例后启动程序N次就好了。。。跌倒了），因为这是一个模拟登录，所以我写了另一个。设置复杂的东西生成二维码，然后获取登录URL。具体模拟登录原理请参考这条微信-删除-好友。另外，相关的Celery Task中写的逻辑过于复杂，一个请求在一个任务中被打断。线路重连机制，模拟登录机制，解析列表，解析文章等。另外，由于网页版微信有非常复杂的同步机制，有时候如果连不上手动重新登录很麻烦直接掉了。

　　未来网页版微信将不再能够获取密钥（2016年开始），此方案将被废弃。.

　　新计划

　　经领导提醒，改了结构。项目总体结构如下：

　　微信爬虫架构图

　　更新

　　生成key的方法是编写按钮向导的脚本不断生成文章列表URL然后不断点击，使用squid作为代理获取带key的url（squid需要配置ssl-bump 透明代理）

　　超过

0

2022-01-18

从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

从网页抓取数据(web旧方案日志：,改了机制,模拟登录机制)

0 个评论

发起人