网站调用新浪微博内容(weiboSpider,看名字也可以猜到这个项目是做什么的了!)
优采云 发布时间: 2022-03-06 05:01网站调用新浪微博内容(weiboSpider,看名字也可以猜到这个项目是做什么的了!)
各位朋友大家好,今天给大家分享的开源项目是:weiboSpider,看名字就猜到这个项目是干什么的了!没错,这个开源项目是新浪微博的一个或多个用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库,写入的信息几乎包括所有数据用户微博,包括用户信息和微博信息。本开源项目需要设置cookies才能访问微博,后面会讲解如何获取cookies。如果您不想设置 cookie,您可以使用无 cookie 版本,其功能类似。
具体写入文件类型如下:
写入 txt 文件(默认) 写入 csv 文件(默认) 写入 json 文件(可选) 写入 MySQL 数据库(可选) 写入 MongoDB 数据库(可选) 从用户 原创weibo 下载 raw 图片(可选) 下载用户转发微博中的原图(特定于无cookie版本) 下载用户原创微博中的视频(可选) 下载用户转发微博中的视频(无cookie版本独有) 下载用户在微博直播中的原创视频(无cookie版本独有) 下载用户转发微博直播中的视频(无cookie版本独有) 项目列表
自定义字段
这部分是爬取的字段信息的描述。为了区别于无cookie版本,下面列出两者爬取的信息。如果信息是无cookie版本独有的,则会有无cookie标记,未标记的信息为两者共享的信息。
用户信息
微博资讯
运行时环境部署项目
源码安装
$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt
复制代码
要么
$ python3 -m pip install weibo-spider
复制代码
运行程序
源码安装用户可以在weiboSpider目录下运行以下命令,pip安装用户可以在任意有写权限的目录下运行以下命令
$ python3 -m weibo_spider
复制代码
第一次执行时,会在当前目录自动创建config.json配置文件。配置完成后,执行同样的命令获取微博。如果你已经有了config.json文件,也可以通过config_path参数配置config.json路径,运行程序,命令行如下:
$ python3 -m weibo_spider --config_path="config.json"
复制代码
个性化程序(可选)
此部分是可选的,如果您不需要个性化程序或添加新功能,可以忽略。
该程序的主要代码位于 weibo_spider.py 文件中。程序的主体是一个 Spider 类。以上所有功能都是通过在main函数中调用Spider类来实现的。默认调用代码如下:
config = get_config()
wb = Spider(config)
wb.start() # 爬取微博信息
复制代码
用户可以根据需要调用或修改 Spider 类。通过执行这个程序,我们可以获得很多信息。
定时自动抓取微博(可选)
如果您希望程序每隔一段时间自动爬取,并且爬取的内容是新添加的内容(不包括已经获取的微博),请定期检查微博的自动爬取情况。
如何获得饼干
要了解如何获取 cookie,请查看 cookie 文档。
如何获取 user_id
要了解如何获取 user_id,请查看 user_id 文档,该文档描述了如何获取一个或多个微博用户的 user_id。
开源地址:/dataabc/wei...
有兴趣的旧熨斗不怕应用它。一是可以参考作者的编码风格,二是给刚入手或者最近入手的朋友提供一个采集数据思路。
今天的推荐,不知道大家喜不喜欢?如果喜欢,请在文章底部留言或点赞,以表示对我的支持。你们的评论、点赞、转发和关注,是我不断更新的动力,平安!