网页数据抓取软件(一个读取数据最简单的爬虫程序如何利用中的pandas库来)
优采云 发布时间: 2022-01-04 10:02网页数据抓取软件(一个读取数据最简单的爬虫程序如何利用中的pandas库来)
今天给大家介绍一下史上最简单的爬虫程序。如何使用python中的pandas库快速读取网页中的表格数据。我以搜狐NBA数据中心(#division)的网页为例。网页收录6个表格,我们要做的就是快速获取这6个表格中的数据,并调整格式,使其更加美观实用:
1. 读取数据
我们可以使用pandas的read_html方法来快速获取网页中所有表格的数据。
import pandas as pd
url="http://data.sports.sohu.com/nba/nba_teams_rank.php?type=division#division"
tables = pd.read_html(url)
print("table数量:",len(tables))
tables
2. 调整数据格式
我们的表收录了6张表的数据,我们来看看第一张表的数据
df1 = tables[0]
df1
显然第一个表中的标题不是我们需要的。看来第0行应该是header了,那么接下来我们要做的就是把第0行变成我们的header,删除原来的header。第 0 行:
df1.columns = list(df1.iloc[0])
df1 = df1.drop([0], axis=0)
df1
3. 删除不需要的行或列,并重建索引
以上数据调整后是完美的,但如果是自己的数据,可能还需要进一步完善,比如删除一些行或列,最后重建索引。下面我们来实现下面几个行和列的删除。重建索引的方法:
#删除第3,4行
df1 = df1.drop([3,4], axis=0)
#删除客场,主场这两列
df1 = df1.drop(['客场', '主场'], axis=1)
#重建索引
df1.reset_index(drop=True)
4.总结
经过上面的简单折腾,我们就可以快速的实现最简单的爬虫功能了。通过这个简单的方法,我们可以自己扩展更复杂的功能。比如我们可以通过修改网页链接中的参数来获取需要转的数据。等等。