用造数可以采集公众号所有的历史消息啦!
优采云 发布时间: 2020-08-14 23:20
这几页网址是:
https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.6368406027445579&action=list_ex&begin=0&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9
https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.4705495830164472&action=list_ex&begin=5&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9
https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.6404613577068903&action=list_ex&begin=10&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9
https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.2618712961529981&action=list_ex&begin=15&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9
观察,random每次都不一样,begin是从0开始,每次以5递增,这样问题就解决了,我们可以通过造数来采集。
3、使用造数采集
打开造数的中级规则,Cookie是从网页中复制过来的
通过造数的JSON可视化功能选定数据,link就是文章链接,title就是文章标题,digest就是摘要,update_time就是发布时间。
选中须要的数据完成创建即可。
发布时间使用Unix时间戳即可转换
4、公共号的多页采集
打开爬虫配置——多页爬取——批量添加网址,把须要采集的网址输入进去,保存。
删除我们拿来创建爬虫的链接,否则会采集重复数据。
接下来就可以执行爬取了。
然后就可以下载到数据了
5、公共号的深度爬取
深度爬取就是拿来采集公众号文章的具体内容。
问题
1、多页采集。因为这个插口中有一个random随机参数,目前还没有发觉规律,所以链接只能自动复制。后来我测试,不加random参数,采集小量数据是没问题的,这个时侯可以使用造数的多页设置,采集几百条数据是没问题的。
2、*敏*感*词*采集。微信其实是存在各种各样的爬虫限制,当你一次性采集数量过多时,你的Cookie可能就被察觉了。当我测试*敏*感*词*采集时,会报错:操作很频繁,请稍后再试,过10分钟左右就好了
最终的解决方式
最简单最暴力的解决方式就是写爬虫了,然而这须要有编程基础,你可以去学一学Python爬虫.
当然有*敏*感*词*采集需求的也可以联系我。