网站调用新浪微博内容(weiboSpider，看名字也可以猜到这个项目是做什么的了！)

优采云发布时间: 2022-03-06 05:01

　　各位朋友大家好，今天给大家分享的开源项目是：weiboSpider，看名字就猜到这个项目是干什么的了！没错，这个开源项目是新浪微博的一个或多个用户（如胡歌、迪丽热巴、郭碧婷）的数据，并将结果信息写入文件或数据库，写入的信息几乎包括所有数据用户微博，包括用户信息和微博信息。本开源项目需要设置cookies才能访问微博，后面会讲解如何获取cookies。如果您不想设置 cookie，您可以使用无 cookie 版本，其功能类似。

　　具体写入文件类型如下：

　　写入 txt 文件（默认）写入 csv 文件（默认）写入 json 文件（可选）写入 MySQL 数据库（可选）写入 MongoDB 数据库（可选）从用户原创weibo 下载 raw 图片（可选）下载用户转发微博中的原图（特定于无cookie版本）下载用户原创微博中的视频（可选）下载用户转发微博中的视频（无cookie版本独有）下载用户在微博直播中的原创视频（无cookie版本独有）下载用户转发微博直播中的视频（无cookie版本独有）项目列表

　　自定义字段

　　这部分是爬取的字段信息的描述。为了区别于无cookie版本，下面列出两者爬取的信息。如果信息是无cookie版本独有的，则会有无cookie标记，未标记的信息为两者共享的信息。

　　用户信息

　　微博资讯

　　运行时环境部署项目

　　源码安装

　　$ git clone https://github.com/dataabc/weiboSpider.git

$ cd weiboSpider

$ pip install -r requirements.txt

复制代码

　　要么

　　$ python3 -m pip install weibo-spider

复制代码

　　运行程序

　　源码安装用户可以在weiboSpider目录下运行以下命令，pip安装用户可以在任意有写权限的目录下运行以下命令

　　$ python3 -m weibo_spider

复制代码

　　第一次执行时，会在当前目录自动创建config.json配置文件。配置完成后，执行同样的命令获取微博。如果你已经有了config.json文件，也可以通过config_path参数配置config.json路径，运行程序，命令行如下：

　　$ python3 -m weibo_spider --config_path="config.json"

复制代码

　　个性化程序（可选）

　　此部分是可选的，如果您不需要个性化程序或添加新功能，可以忽略。

　　该程序的主要代码位于 weibo_spider.py 文件中。程序的主体是一个 Spider 类。以上所有功能都是通过在main函数中调用Spider类来实现的。默认调用代码如下：

　　config = get_config()

wb = Spider(config)

wb.start() # 爬取微博信息

复制代码

　　用户可以根据需要调用或修改 Spider 类。通过执行这个程序，我们可以获得很多信息。

　　定时自动抓取微博（可选）

　　如果您希望程序每隔一段时间自动爬取，并且爬取的内容是新添加的内容（不包括已经获取的微博），请定期检查微博的自动爬取情况。

　　如何获得饼干

　　要了解如何获取 cookie，请查看 cookie 文档。

　　如何获取 user_id

　　要了解如何获取 user_id，请查看 user_id 文档，该文档描述了如何获取一个或多个微博用户的 user_id。

　　开源地址：/dataabc/wei...

　　有兴趣的旧熨斗不怕应用它。一是可以参考作者的编码风格，二是给刚入手或者最近入手的朋友提供一个采集数据思路。

　　今天的推荐，不知道大家喜不喜欢？如果喜欢，请在文章底部留言或点赞，以表示对我的支持。你们的评论、点赞、转发和关注，是我不断更新的动力，平安！

0

2022-03-06

网站调用新浪微博内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站调用新浪微博内容(weiboSpider，看名字也可以猜到这个项目是做什么的了！)

0 个评论

发起人

AI时代内容工厂

网站调用新浪微博内容(weiboSpider，看名字也可以猜到这个项目是做什么的了！)

0 个评论

发起人

相关问题