网页数据抓取软件(一个读取数据最简单的爬虫程序如何利用中的pandas库来)

优采云 发布时间: 2022-01-04 10:02

  网页数据抓取软件(一个读取数据最简单的爬虫程序如何利用中的pandas库来)

  今天给大家介绍一下史上最简单的爬虫程序。如何使用python中的pandas库快速读取网页中的表格数据。我以搜狐NBA数据中心(#division)的网页为例。网页收录6个表格,我们要做的就是快速获取这6个表格中的数据,并调整格式,使其更加美观实用:

  

  1. 读取数据

  我们可以使用pandas的read_html方法来快速获取网页中所有表格的数据。

  

import pandas as pd

url="http://data.sports.sohu.com/nba/nba_teams_rank.php?type=division#division"

tables = pd.read_html(url)

print("table数量:",len(tables))

tables

  

  2. 调整数据格式

  我们的表收录了6张表的数据,我们来看看第一张表的数据

  

df1 = tables[0]

df1

  

  显然第一个表中的标题不是我们需要的。看来第0行应该是header了,那么接下来我们要做的就是把第0行变成我们的header,删除原来的header。第 0 行:

  

df1.columns = list(df1.iloc[0])

df1 = df1.drop([0], axis=0)

df1

  

  3. 删除不需要的行或列,并重建索引

  以上数据调整后是完美的,但如果是自己的数据,可能还需要进一步完善,比如删除一些行或列,最后重建索引。下面我们来实现下面几个行和列的删除。重建索引的方法:

  

#删除第3,4行

df1 = df1.drop([3,4], axis=0)

#删除客场,主场这两列

df1 = df1.drop(['客场', '主场'], axis=1)

#重建索引

df1.reset_index(drop=True)

  

  4.总结

  经过上面的简单折腾,我们就可以快速的实现最简单的爬虫功能了。通过这个简单的方法,我们可以自己扩展更复杂的功能。比如我们可以通过修改网页链接中的参数来获取需要转的数据。等等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线