网站调用新浪微博内容(weiboSpider,看名字也可以猜到这个项目是做什么的了!)

优采云 发布时间: 2022-03-06 05:01

  网站调用新浪微博内容(weiboSpider,看名字也可以猜到这个项目是做什么的了!)

  各位朋友大家好,今天给大家分享的开源项目是:weiboSpider,看名字就猜到这个项目是干什么的了!没错,这个开源项目是新浪微博的一个或多个用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库,写入的信息几乎包括所有数据用户微博,包括用户信息和微博信息。本开源项目需要设置cookies才能访问微博,后面会讲解如何获取cookies。如果您不想设置 cookie,您可以使用无 cookie 版本,其功能类似。

  具体写入文件类型如下:

  写入 txt 文件(默认) 写入 csv 文件(默认) 写入 json 文件(可选) 写入 MySQL 数据库(可选) 写入 MongoDB 数据库(可选) 从用户 原创weibo 下载 raw 图片(可选) 下载用户转发微博中的原图(特定于无cookie版本) 下载用户原创微博中的视频(可选) 下载用户转发微博中的视频(无cookie版本独有) 下载用户在微博直播中的原创视频(无cookie版本独有) 下载用户转发微博直播中的视频(无cookie版本独有) 项目列表

  

  自定义字段

  这部分是爬取的字段信息的描述。为了区别于无cookie版本,下面列出两者爬取的信息。如果信息是无cookie版本独有的,则会有无cookie标记,未标记的信息为两者共享的信息。

  用户信息

  微博资讯

  运行时环境部署项目

  源码安装

  $ git clone https://github.com/dataabc/weiboSpider.git

$ cd weiboSpider

$ pip install -r requirements.txt

复制代码

  要么

  $ python3 -m pip install weibo-spider

复制代码

  运行程序

  源码安装用户可以在weiboSpider目录下运行以下命令,pip安装用户可以在任意有写权限的目录下运行以下命令

  $ python3 -m weibo_spider

复制代码

  第一次执行时,会在当前目录自动创建config.json配置文件。配置完成后,执行同样的命令获取微博。如果你已经有了config.json文件,也可以通过config_path参数配置config.json路径,运行程序,命令行如下:

  $ python3 -m weibo_spider --config_path="config.json"

复制代码

  个性化程序(可选)

  此部分是可选的,如果您不需要个性化程序或添加新功能,可以忽略。

  该程序的主要代码位于 weibo_spider.py 文件中。程序的主体是一个 Spider 类。以上所有功能都是通过在main函数中调用Spider类来实现的。默认调用代码如下:

  config = get_config()

wb = Spider(config)

wb.start() # 爬取微博信息

复制代码

  用户可以根据需要调用或修改 Spider 类。通过执行这个程序,我们可以获得很多信息。

  定时自动抓取微博(可选)

  如果您希望程序每隔一段时间自动爬取,并且爬取的内容是新添加的内容(不包括已经获取的微博),请定期检查微博的自动爬取情况。

  如何获得饼干

  要了解如何获取 cookie,请查看 cookie 文档。

  如何获取 user_id

  要了解如何获取 user_id,请查看 user_id 文档,该文档描述了如何获取一个或多个微博用户的 user_id。

  开源地址:/dataabc/wei...

  有兴趣的旧熨斗不怕应用它。一是可以参考作者的编码风格,二是给刚入手或者最近入手的朋友提供一个采集数据思路。

  今天的推荐,不知道大家喜不喜欢?如果喜欢,请在文章底部留言或点赞,以表示对我的支持。你们的评论、点赞、转发和关注,是我不断更新的动力,平安!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线