网页数据抓取软件(一下如何用Python制作一个数据可视化网页，使用到的是Streamlit库 )

优采云发布时间: 2022-01-13 03:07

　　网页数据抓取软件(一下如何用Python制作一个数据可视化网页，使用到的是Streamlit库

)

　　大家好，说到网页，你首先想到的可能是 HTML、CSS 或 JavaScript。

　　在本文中，我将向您展示如何使用 Streamlit 库在 Python 中制作数据可视化网页。它可以轻松地将 Excel 数据文件转换成网页供大家在线查看。

　　注：文末有技术交流群，欢迎加入

　　每当您将更改保存到 Excel 文件时，网页也可以实时更新，这真是太好了。

　　Streamlit 的文档和教程地址如下。

　　的

　　相关的 API 使用可以在文档中查看，有详细的解释。

　　项目共有三个文件，程序，图片，Excel表格数据。

　　数据如下，某公司年末问卷调查（虚构数据），相关部门对生产部门工作配合的评分。

　　共有约676份有效数据，匿名问卷，包括受访者的部门、年龄和分数。最后统计每个部门的参与者总数（右侧数据）。

　　首先我们安装相关的Python库，使用百度源码。

# 安装streamlit pip install streamlit -i https://mirror.baidu.com/pypi/simple/ # 安装Plotly Express pip install plotly_express==0.4.0 -i https://mirror.baidu.com/pypi/simple/ # 安装xlrd pip install xlrd==1.2.0 -i https://mirror.baidu.com/pypi/simple/

　　因为我们的数据文件是xlsx格式的，所以最新版本的xlrd只支持xls文件。

　　所以需要指定xlrd版本为1.2.0，这样pandas才能成功读取数据。

　　命令行终端启动网页。

# 命令行终端打开文件所在路径 cd Excel_Webapp # 运行网页 streamlit run app.py

　　成功后会有提示，浏览器会自动弹出网页。

　　如果没有自动弹出，可以直接访问上图中的地址。

　　结果如下，出来一个数据可视化网页。

　　目前只能在本地访问和查看。如果要上线，可以通过服务器部署。需要自己去研究~

　　我们来看看具体的代码。

import pandas as pd import streamlit as st import plotly.express as px from PIL import Image # 设置网页名称 st.set_page_config(page_title='调查结果') # 设置网页标题 st.header('2020年调查问卷') # 设置网页子标题 st.subheader('2020年各部门对生产部的评分情况')

　　导入相关Python包，pandas处理数据，streamlit生成网页，plotly.express生成图表，PIL读取图片。

　　设置页面名称，以及页面的标题和副标题。

# 读取数据 excel_file = '各部门对生产部的评分情况.xlsx' sheet_name = 'DATA' df = pd.read_excel(excel_file, sheet_name=sheet_name, usecols='B:D', header=3) # 此处为各部门参加问卷调查人数 df_participants = pd.read_excel(excel_file, sheet_name=sheet_name, usecols='F:G', header=3) df_participants.dropna(inplace=True) # streamlit的多重选择(选项数据) department = df['部门'].unique().tolist() # streamlit的滑动条(年龄数据) ages = df['年龄'].unique().tolist()

　　读取Excel表格数据，得到年龄分布和部门情况，一共5个部门。

　　添加了滑块和多选数据选项。

# 滑动条, 最大值、最小值、区间值 age_selection = st.slider('年龄:', min_value=min(ages), max_value=max(ages), value=(min(ages), max(ages))) # 多重选择, 默认全选 department_selection = st.multiselect('部门:', department, default=department)

　　结果如下。

　　年龄从23岁到65岁，部门分别是营销、物流、采购、销售和财务。

　　由于滑块和多选是可变的，因此需要根据过滤条件得出最终数据。

# 根据选择过滤数据 mask = (df['年龄'].between(*age_selection)) & (df['部门'].isin(department_selection)) number_of_result = df[mask].shape[0] # 根据筛选条件, 得到有效数据 st.markdown(f'*有效数据: {number_of_result}*') # 根据选择分组数据 df_grouped = df[mask].groupby(by=['评分']).count()[['年龄']] df_grouped = df_grouped.rename(columns={'年龄': '计数'}) df_grouped = df_grouped.reset_index()

　　一旦获得数据，就可以绘制直方图。

# 绘制柱状图, 配置相关参数 bar_chart = px.bar(df_grouped, x='评分', y='计数', text='计数', color_discrete_sequence=['#F63366']*len(df_grouped), template='plotly_white') st.plotly_chart(bar_chart)

　　使用 plotly 绘制直方图。