全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

用造数可以采集公众号所有的历史消息啦！

优采云发布时间: 2020-08-14 23:20

　　

　　这几页网址是：

　　https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.6368406027445579&action=list_ex&begin=0&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9

https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.4705495830164472&action=list_ex&begin=5&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9

https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.6404613577068903&action=list_ex&begin=10&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9

https://mp.weixin.qq.com/cgi-bin/appmsg?token=329813432&lang=zh_CN&f=json&ajax=1&random=0.2618712961529981&action=list_ex&begin=15&count=5&query=&fakeid=MzIzMTc5ODU1OA%3D%3D&type=9

　　观察，random每次都不一样，begin是从0开始，每次以5递增，这样问题就解决了，我们可以通过造数来采集。

　　

　　3、使用造数采集

　　打开造数的中级规则，Cookie是从网页中复制过来的

　　

　　通过造数的JSON可视化功能选定数据，link就是文章链接，title就是文章标题，digest就是摘要，update_time就是发布时间。

　　选中须要的数据完成创建即可。

　　

　　发布时间使用Unix时间戳即可转换

　　

　　4、公共号的多页采集

　　打开爬虫配置——多页爬取——批量添加网址，把须要采集的网址输入进去，保存。

　　

　　删除我们拿来创建爬虫的链接，否则会采集重复数据。

　　接下来就可以执行爬取了。

　　

　　然后就可以下载到数据了

　　

　　

　　5、公共号的深度爬取

　　深度爬取就是拿来采集公众号文章的具体内容。

　　问题

　　1、多页采集。因为这个插口中有一个random随机参数，目前还没有发觉规律，所以链接只能自动复制。后来我测试，不加random参数，采集小量数据是没问题的，这个时侯可以使用造数的多页设置，采集几百条数据是没问题的。

　　2、*敏*感*词*采集。微信其实是存在各种各样的爬虫限制，当你一次性采集数量过多时，你的Cookie可能就被察觉了。当我测试*敏*感*词*采集时，会报错：操作很频繁，请稍后再试，过10分钟左右就好了

　　

　　最终的解决方式

　　最简单最暴力的解决方式就是写爬虫了，然而这须要有编程基础，你可以去学一学Python爬虫.

　　当然有*敏*感*词*采集需求的也可以联系我。

　　

0

2020-08-14

可采集文章

0 个评论

要回复文章请先登录或注册

视
频
教
程

官方客服QQ群

在
线
客
服