python网页数据抓取(文章只用于学习交流利用python模块pandas获取网页表格的方法)
优采云 发布时间: 2021-10-20 15:10python网页数据抓取(文章只用于学习交流利用python模块pandas获取网页表格的方法)
文章 仅用于学习和交流。使用 python 模块 pandas 获取 Web 表单。
有什么办法可以把表格的内容保存在网页上吗?答案是肯定的。
主要有两个步骤,
一种是读取表格内容,另一种是读取后保存内容。
我只讲解最简单的获取网页表单的方式,即网页纯粹是表单。
如果网页中混有其他非表格的数据,则需要定位表格,然后进行表格获取。当然,这是后来的事情。
1.网页展示
网页上显示的表格如下。
2.阅读表格
运行以下代码。
怎么样,读出来的代码和网页上的一样吗?既然已经读出,下一步就是保存。
3.保存表格
这一步添加了一行代码。执行代码后,可以看到多了一个table_.csv文件。
打开保存的table_.csv文件看看
您可以看到保存的文件与您在网页上看到的完全相同。好了,结束工作。
完整代码
# 网页需要是纯表格才能用此代码,否则还需要定位到网页表格位置
import pandas as pd
url = 'http://quote.cfi.cn/cache_image/node233.js'
html_data = pd.read_html(url)
for i in html_data:
table_data = pd.DataFrame(i)
table_data.to_csv('table_.csv') # 文件名称
print(table_data)
后记