使用新浪微博开放平台api同步微博内容至自己网站(微博最为爬取微博转发数据怎么办?措施来帮你)

优采云 发布时间: 2022-01-21 15:03

  使用新浪微博开放平台api同步微博内容至自己网站(微博最为爬取微博转发数据怎么办?措施来帮你)

  微博是目前最流行的社交媒体平台,收录大量信息。当然,这也让微博成为爬虫爱好者的天堂。本篇文章将带大家爬取微博转发数据。

  一、查找数据

  网页版微博有很多限制,所以我们使用手机版抓取,首先看网页结构:

  

  我们可以看到这条微博有8829条转发,使用开发者工具可以很容易找到数据源的api:

  

  我们先分析一下:这个api

  https://m.weibo.cn/api/statuses/repostTimeline?id=4404443543726813&page=886

  id后面的数据代表微博的id,page后面的数据代表对应的页码。这样,我们只需要知道是哪条微博,然后遍历每个页面就可以得到所有的数据。那么最后,我们要做多少呢?我们来看看返回的数据:

  

  返回的数据收录两条信息,一条是max,一条是total_number。经过观察,max是总页数,total_number是总转发数,所以我们只需要遍历到883页就可以了。

  二、写代码

  第一部分代码的目的是求最大页数;

  

  第二部分代码是找到转发器,获取转发器的id和转发内容,保存在csv文件中。结果如下:

  

  当然,微博肯定不会同意这么猛烈的爬取,那么我们如何绕过这些反爬取措施,我们下一篇文章会为你展示。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线