用造数可以采集公众号所有的历史消息啦!

优采云 发布时间: 2020-08-14 23:20

  

  这几页网址是:

  https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.6368406027445579&action=list_ex&begin=0&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9

https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.4705495830164472&action=list_ex&begin=5&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9

https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.6404613577068903&action=list_ex&begin=10&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9

https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.2618712961529981&action=list_ex&begin=15&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9

  观察,random每次都不一样,begin是从0开始,每次以5递增,这样问题就解决了,我们可以通过造数来采集

  

  3、使用造数采集

  打开造数的中级规则,Cookie是从网页中复制过来的

  

  通过造数的JSON可视化功能选定数据,link就是文章链接,title就是文章标题,digest就是摘要,update_time就是发布时间。

  选中须要的数据完成创建即可。

  

  发布时间使用Unix时间戳即可转换

  

  4、公共号的多页采集

  打开爬虫配置——多页爬取——批量添加网址,把须要采集的网址输入进去,保存。

  

  删除我们拿来创建爬虫的链接,否则会采集重复数据。

  接下来就可以执行爬取了。

  

  然后就可以下载到数据了

  

  

  5、公共号的深度爬取

  深度爬取就是拿来采集公众号文章的具体内容。

  问题

  1、多页采集。因为这个插口中有一个random随机参数,目前还没有发觉规律,所以链接只能自动复制。后来我测试,不加random参数,采集小量数据是没问题的,这个时侯可以使用造数的多页设置,采集几百条数据是没问题的。

  2、*敏*感*词*采集。微信其实是存在各种各样的爬虫限制,当你一次性采集数量过多时,你的Cookie可能就被察觉了。当我测试*敏*感*词*采集时,会报错:操作很频繁,请稍后再试,过10分钟左右就好了

  

  最终的解决方式

  最简单最暴力的解决方式就是写爬虫了,然而这须要有编程基础,你可以去学一学Python爬虫.

  当然有*敏*感*词*采集需求的也可以联系我。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线