自动化采集公众号信息,postpagetracking+websocket的经验技巧
优采云 发布时间: 2021-07-07 04:03自动化采集公众号信息,postpagetracking+websocket的经验技巧
自动采集手机,pc里面的信息。不过批量采集太难了。我用的是多抓鱼就比较容易上手。它可以一键抓取一些平台里面的信息。比如你想抓取滴滴打车的信息,那就先打开滴滴打车app。然后在里面采集那个平台信息。
自动化采集公众号信息,这个其实不难,因为本身微信公众号的地址就是共享的,基本只要你的程序不是很差,能识别二维码,能分析一个url里面的参数,能识别页面响应时间,就可以完成自动化的采集了,简单说,就是服务端推送一个公众号的url就好了,所以本质上,公众号信息对于这个程序来说就是共享的。至于到达率,这个其实是比较难的,主要还是要靠分析你要采集的目标,统计其他的采集成本,这样采集出来效率才能提高。另外,你说的批量采集,这个完全可以用爬虫替代,爬虫实际上就是有人在后台给你发url,你自己去爬。
目前主流的采集技术就是postpagetracking+websocket,下面我讲讲我的经验技巧。其实post就是把我们获取的重定向到/,websocket是基于web的tcp连接来传递的,两者进行交互。url结构就是页面的cookie。这里有个坑一定要记住。post都是xml格式的,不要post长时间会报cookie过期,重定向的信息有时会丢失,请记得保存信息。
问题来了,如何确定你的websocket的连接时间呢?比如微信端的采集,xml格式就行,微信还会自己产生cookie,网页端就不行了,只能用抓包工具来抓。然后就可以通过cookie来确定连接时间了。这样抓包工具的工作就是每次通过一个连接的时间来判断这个浏览器到底是在下载还是在浏览。而lxml的解析就是不依赖浏览器本身自带cookie判断时间的。
可以在抓包工具里直接拿到httppost的server的cookie通过xml格式的方式传到parser里解析。