dataframe和dataframe的基本用法,你知道吗?(上)
优采云 发布时间: 2021-02-08 11:01dataframe和dataframe的基本用法,你知道吗?(上)
关键词文章采集啊,不需要爬虫技术,就可以模拟请求接受url,采集标题,页码,摘要内容,通过循环加载跳转相应的网页内容即可。无论是复制还是手动输入,都很快,而且不需要改变本地环境,不影响后续操作。
pandas是一个数据分析库(asoftwaredataanalysislibrary)可以让你创建大量的类数据框以及全功能dataframe可以对以下数据集(列数据集,因子数据集,*敏*感*词*集)进行探索分析:——多张交叉表/多个报表连接。——某些特殊类型,或是用于预测。——针对电影票房(电影的每个字段)的特殊列属性收集在pandas中,它可以包含大量数据:数据列表,数据框,存储,字典或者迭代器。大家要熟悉一些dataframe的基本用法,这对学习pandas十分有用。
pandas中有series,dataframe,apply,print包。我们在日常工作中最常使用的应该是series和dataframe,series基本是维度必须限制的数据对象(不然有点可怕),比如电影名字的电影时间序列,可以存储个个时间序列(比如3,5,7)。dataframe是可以不是线性分隔的数据框(dataframe和数据框的区别在于dataframe的apply不一定要返回内置的数据框,后续使用多了就会理解),这里面更容易理解,一个是用户行为数据,另一个是涉及到社交网络分析的数据。
dataframe能模拟某一级的变量,比如单个用户给电影票的票务价格,还有时间属性。也就是说,数据都是以一个维度/层来存储,列表,字典,下拉框,地址簿。其中数据的字段是不必要的。apply对于一个列表和字典转换是最常用的,比如下面的代码:这个代码中dataframe不会变,通过apply转换为series,字典会变化:classseries(object):def__init__(self,columns):self.columns=columnsdefapply(self,dataframe):dataframe=self.series(dataframe)dataframe.apply(self,dataframe)returndataframedataframe=series(['电影名','时间','票价'])series中的元素是分组存储的,比如一个series只有第一个索引存储用户数据,剩下的都存储为未被用户删除的键值对,而在应用apply的时候则把后面的所有的键全部改为1,这就是数据降维的核心思想。
print包是随机发问,遇到任何问题直接找pandas的文档来答案,要知道我们日常工作并不需要做一个良好的数据分析人员。