python网页数据抓取(Pandas库有一种内置的方法,可以从名为_html中提取表格数据)

优采云 发布时间: 2021-10-20 18:21

  python网页数据抓取(Pandas库有一种内置的方法,可以从名为_html中提取表格数据)

  翻译丨糖水

  @ageitgey/quick-tip-the-easiest-way-to-grab-data-out-of-a-web-page-in-python-7153cecfca58

  假设您在 Internet 上搜索某个项目所需的原创数据,但坏消息是该数据存在于网络上,并且没有可用的 API 来获取原创数据。

  所以现在你不得不浪费 30 分钟编写脚本来获取数据(最后花了 2 小时)。

  这并不难,但很浪费时间。

  Pandas 库有一个内置方法可以从名为 read_html() 的 html 页面中提取表格数据:

  就是这么简单!Pandas 可以找到页面上所有重要的 html 表格,并将它们作为新的 DataFrame 对象返回。

  #数据框

  输入表单 0 行有列标题,并要求它将基于文本的日期转换为时间对象:

  得到:

  是一行代码,数据不能作为json记录。

  运行以下代码,您将获得漂亮的 json 输出(即使使用正确的 ISO 8601 日期格式):

  您甚至可以将数据保存到 CSV 或 XLS 文件中:

  运行并双击 call.csv 以在电子表格中打开它:

  当然,Pandas 还可以更简单地过滤、分类或处理数据:

  推荐↓↓↓

  千山万水总相爱,能不能订个“好看”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线