从网页抓取数据( 近30天Python第三方库下载量居然高达2亿!小编查了查)
优采云 发布时间: 2022-01-08 07:06从网页抓取数据(
近30天Python第三方库下载量居然高达2亿!小编查了查)
前言
最近有读者分享了一个网站,可以用来查看Python第三方库的信息,包括库的介绍版本、近30天的总下载量、pip下载量过去 30 天:
我搜索了资料。Python语言的第三方库超过12万个,几乎涵盖了信息技术的所有领域。
小编自己安装第三方库的时候,用pip基本可以解决,但是有时候有些库不能用pip安装,所以我下载whl文件安装。
小编下载的whl文件都是从下面的网站下载的,比较全,包括很多库,基本都能找到需要的库:
~gohlke/pythonlibs/
从这个网站爬取所有库名,爬取该库过去30天的下载量,并描述简要信息。
虽然很多库不知道自己是做什么的,也没有使用过,但是可以根据数据分析出哪些流行的第三方库,描述一下介绍涉及到哪个方向。
数据采集
先从第三方库网站爬取所有库名,然后爬取各个库近30天的下载量,描述信息,最后保存数据。整个逻辑并不难。完整的源码在文末获取:
可视化
近30天下载量降序排序,第三方库下载量最高高达2亿!
小编查了一下,这个库是web开发相关的库:
我们通过词云图直接看近30天第三方库下载量的主要分布:
上面提到的botocore是一个web相关的库,boto3也是。
setuptools 是 pip 安装的必备模块。大概率是环境有问题,无法安装包,所以我先下载这个。
然后就可以看到爬虫熟悉的urllib3和requests这两个库了。近年来,爬虫逐渐进入大众视野,引起了很多人的兴趣。
还有pandas、numpy数据处理库、机器学习、大数据最热门词汇。这两个库更常用于 Python 中的数据处理和清洗。
其他库我就不多说了。第三方库太多了。从那网站到采集再到1700多个库名,通过所有的描述信息,看看哪些方向涉及的最多。:
io,文件读写文件数据流,貌似会涉及很多模块。
image、img 图像图像、绘制图表、图像处理等的各种库,现在有很多,比如典型的matplotlib、PIL、seaborn、pyecharts等。可视化数据,图像数据处理也是一个比较热门的方向。
数据可以让人联想到数据时代。Python在处理采集数据方面有一定优势,所以爬虫相关的请求、urllib3、数据相关的pandas、numpy的下载量都比较高。
. . . . . .
2022年了,祝你新年快乐,找到你感兴趣的方向,一路前行~
感兴趣的读者可以继续探索探索。
源码获取
扫描下方二维码,在公众号对话框回复关键词“包”即可获取
结尾
读者交流群已成立,找我并备注“交流”,即可加入我们~
听说“看”的人更好看~
关注小编~小编给大家分享爬虫、数据分析和可视化的内容~