python网页数据抓取(Pandas库有一种内置的方法,可以从名为_html中提取表格数据)
优采云 发布时间: 2021-10-20 18:21python网页数据抓取(Pandas库有一种内置的方法,可以从名为_html中提取表格数据)
翻译丨糖水
@ageitgey/quick-tip-the-easiest-way-to-grab-data-out-of-a-web-page-in-python-7153cecfca58
假设您在 Internet 上搜索某个项目所需的原创数据,但坏消息是该数据存在于网络上,并且没有可用的 API 来获取原创数据。
所以现在你不得不浪费 30 分钟编写脚本来获取数据(最后花了 2 小时)。
这并不难,但很浪费时间。
Pandas 库有一个内置方法可以从名为 read_html() 的 html 页面中提取表格数据:
就是这么简单!Pandas 可以找到页面上所有重要的 html 表格,并将它们作为新的 DataFrame 对象返回。
#数据框
输入表单 0 行有列标题,并要求它将基于文本的日期转换为时间对象:
得到:
是一行代码,数据不能作为json记录。
运行以下代码,您将获得漂亮的 json 输出(即使使用正确的 ISO 8601 日期格式):
您甚至可以将数据保存到 CSV 或 XLS 文件中:
运行并双击 call.csv 以在电子表格中打开它:
当然,Pandas 还可以更简单地过滤、分类或处理数据:
推荐↓↓↓
千山万水总相爱,能不能订个“好看”