网页数据抓取软件(一个读取数据最简单的爬虫程序如何利用中的pandas库来)

优采云发布时间: 2022-01-04 10:02

　　今天给大家介绍一下史上最简单的爬虫程序。如何使用python中的pandas库快速读取网页中的表格数据。我以搜狐NBA数据中心（#division）的网页为例。网页收录6个表格，我们要做的就是快速获取这6个表格中的数据，并调整格式，使其更加美观实用：

　　1. 读取数据

　　我们可以使用pandas的read_html方法来快速获取网页中所有表格的数据。

import pandas as pd

url="http://data.sports.sohu.com/nba/nba_teams_rank.php?type=division#division"

tables = pd.read_html(url)

print("table数量:",len(tables))

tables

　　2. 调整数据格式

　　我们的表收录了6张表的数据，我们来看看第一张表的数据

df1 = tables[0]

df1

　　显然第一个表中的标题不是我们需要的。看来第0行应该是header了，那么接下来我们要做的就是把第0行变成我们的header，删除原来的header。第 0 行：

df1.columns = list(df1.iloc[0])

df1 = df1.drop([0], axis=0)

df1

　　3. 删除不需要的行或列，并重建索引

　　以上数据调整后是完美的，但如果是自己的数据，可能还需要进一步完善，比如删除一些行或列，最后重建索引。下面我们来实现下面几个行和列的删除。重建索引的方法：

#删除第3,4行

df1 = df1.drop([3,4], axis=0)

#删除客场,主场这两列

df1 = df1.drop(['客场', '主场'], axis=1)

#重建索引

df1.reset_index(drop=True)

　　4.总结

　　经过上面的简单折腾，我们就可以快速的实现最简单的爬虫功能了。通过这个简单的方法，我们可以自己扩展更复杂的功能。比如我们可以通过修改网页链接中的参数来获取需要转的数据。等等。

0

2022-01-04

网页数据抓取软件

0 个评论

要回复文章请先登录或注册