软文采集器(客户发过来一个微信公众号小说分析列表页的分析方法)
优采云 发布时间: 2021-12-11 02:22软文采集器(客户发过来一个微信公众号小说分析列表页的分析方法)
今天有客户发了个微信公众号小说文章的链接,让我看看,能不能用优采云爬下来,打开手机后发现没有问题,十有八九 爬完之后,一般采集这样的微信公众号小说网站,我都是在PC端从公众号爬出来的,抓包很方便,但是在PC端打开的时候一边,我发现它看起来像这样:
PC端打不开。这很麻烦。如果PC客户端无法打开,则无法捕获数据。我该怎么办?
因为之前我在安卓模拟器里抓过app,但是没有抓到微信账号。然后我在模拟器里装了个微信,登录,然后就抓包成功了,一切都好说。
点击图片看大图
题外话:fiddler还是用来抓微信数据包的,fiddler需要设置,模拟器也需要设置,因为这里面的细节很多,这里就不赘述了。
抓包后我就开始分析,分析列表页,分析内容页,这种网站,一般的内容页章节需要付费,这种情况可以通过vipcookies解决,没有问题章节内容。
分析list页面的时候发现前15章是get请求,剩下的都是post请求,一半是get,一半是post请求。这在优采云 中很难设置,除非您使用插件。陶小白仔细观察每一章的特点,发现可以直接跳过小说目录页的请求,直接列举章节。每章的最后一个数字在增加,有200个章节,最后一个章节的url的最后一个数字是200,那么,就去每部小说的详尽列表。
最后填入vipcookies就可以顺利爬取了。以上是采集的单份。客户针对采集,将好的、热门的小说爬下来上传到自己的平台。
需要采集微信公众号小说网站的朋友,可以联系站长