dataframe和dataframe的基本用法，你知道吗？（上）

优采云发布时间: 2021-02-08 11:01

　　关键词文章采集啊，不需要爬虫技术，就可以模拟请求接受url,采集标题，页码，摘要内容，通过循环加载跳转相应的网页内容即可。无论是复制还是手动输入，都很快，而且不需要改变本地环境，不影响后续操作。

　　pandas是一个数据分析库(asoftwaredataanalysislibrary)可以让你创建大量的类数据框以及全功能dataframe可以对以下数据集（列数据集，因子数据集，*敏*感*词*集）进行探索分析：——多张交叉表/多个报表连接。——某些特殊类型，或是用于预测。——针对电影票房（电影的每个字段）的特殊列属性收集在pandas中，它可以包含大量数据：数据列表，数据框，存储，字典或者迭代器。大家要熟悉一些dataframe的基本用法，这对学习pandas十分有用。

　　pandas中有series，dataframe，apply，print包。我们在日常工作中最常使用的应该是series和dataframe，series基本是维度必须限制的数据对象（不然有点可怕），比如电影名字的电影时间序列，可以存储个个时间序列（比如3，5，7）。dataframe是可以不是线性分隔的数据框（dataframe和数据框的区别在于dataframe的apply不一定要返回内置的数据框，后续使用多了就会理解），这里面更容易理解，一个是用户行为数据，另一个是涉及到社交网络分析的数据。

　　dataframe能模拟某一级的变量，比如单个用户给电影票的票务价格，还有时间属性。也就是说，数据都是以一个维度/层来存储，列表，字典，下拉框，地址簿。其中数据的字段是不必要的。apply对于一个列表和字典转换是最常用的，比如下面的代码：这个代码中dataframe不会变，通过apply转换为series，字典会变化：classseries(object):def__init__(self,columns):self.columns=columnsdefapply(self,dataframe):dataframe=self.series(dataframe)dataframe.apply(self,dataframe)returndataframedataframe=series(['电影名','时间','票价'])series中的元素是分组存储的，比如一个series只有第一个索引存储用户数据，剩下的都存储为未被用户删除的键值对，而在应用apply的时候则把后面的所有的键全部改为1，这就是数据降维的核心思想。

　　print包是随机发问，遇到任何问题直接找pandas的文档来答案，要知道我们日常工作并不需要做一个良好的数据分析人员。

0

2021-02-08

关键词文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

dataframe和dataframe的基本用法，你知道吗？（上）

0 个评论

发起人