太棒了!利用新插口抓取微信公众号的所有文章

优采云 发布时间: 2020-08-04 02:02

  

  各位老汉儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公众号历史信息!!!这丫不仅通过中间代理采集APP,还真没哪些招式能领到数据啊!

  直到············

  前段时间早上陌陌官方发布了一个文章:

  

  诶妈呀!这不是仍然须要的采集接口嘛!啧啧 天助我也啊!来来·········下面大致的说一下技巧。

  1、首先你须要一个订阅号! 公众号、企业号是否可行我不清楚。因为我木有·····

  2、其次你须要登陆!

  微信公众号登陆我没仔细看。

  这个姑且不说了,我使用的是selenium 驱动浏览器获取Cookie的方式,来达到登陆的疗效。

  3、使用requests携带Cookie、登录获取URL的token(这玩意很重要每一次恳求都须要带上它)像下边这样:

  

  4、使用获取到的token,和公众号的微信号(就是数字+字符那个),获取到公众号的fakeid(你可以理解公众号的标示)

  

  我们在搜索公众号的时侯浏览器带着参数以GET方式想红框中的URL发起了恳求。请求参数如下:

  

  请求相应如下:

  

  代码如下:

  

  好了 我们再继续:

  5、点击我们搜索到的公众号以后,又发觉一个恳求:

  

  请求参数如下:

  

  返回如下:

  

  代码如下:

  

  好了···最后一步,获取所有文章需要处理一下翻页。翻页恳求如下:

  

  我大约看了一下,极客学院每一页大约起码有5条信息文章采集接口,也就是总文章数/5 就是有多少页。但是有小数,我们取整文章采集接口,然后加1就是总页数了。

  代码如下:

  

  item.get(‘link’)就是我们须要的公众号文章连接啦!继续恳求这个URL提取上面的内容就是啦!

  End.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线