从网页抓取数据(web旧方案日志:,改了机制,模拟登录机制)

优采云 发布时间: 2022-01-18 11:05

  从网页抓取数据(web旧方案日志:,改了机制,模拟登录机制)

  前言网

  旧计划日志

  2015年,微信网页版的限制还没有那么严格。当时的主要思路是用微信网页版,然后用requests来模拟登录,代码

  然后继续访问类似如下的界面爬取信息:

  ('')

  当时为了让爬虫的多实例运行,我用的是Celery框架(现在觉得是智障,跑多实例后启动程序N次就好了。。。跌倒了),因为这是一个模拟登录,所以我写了另一个。设置复杂的东西生成二维码,然后获取登录URL。具体模拟登录原理请参考这条微信-删除-好友。另外,相关的Celery Task中写的逻辑过于复杂,一个请求在一个任务中被打断。线路重连机制,模拟登录机制,解析列表,解析文章等。另外,由于网页版微信有非常复杂的同步机制,有时候如果连不上手动重新登录很麻烦直接掉了。

  未来网页版微信将不再能够获取密钥(2016年开始),此方案将被废弃。.

  新计划

  经领导提醒,改了结构。项目总体结构如下:

  

  微信爬虫架构图

  更新

  生成key的方法是编写按钮向导的脚本不断生成文章列表URL然后不断点击,使用squid作为代理获取带key的url(squid需要配置ssl-bump 透明代理)

  超过

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线