pandas 使用总结

pandas 读取表格后会生成一个 dataframe 对象,一个 dateframe 对象实际上就是一个表格。同一般表格类似,dateframe 对象由三部分组成,表头,index,和表格内容。具体到存储方式上,实际上一个表格被存储为一个 numpy 的二维列表。

使用 dataframe 的关键即是从原初的表格中选择子集。假设表格名称时df, 在选择时可以直接 df[‘age’] 也可以使用 df.loc[12], dfloc[12:23] 来选择表格的一部分。 df[12:23, [‘age’, ‘name’]] 可同时选择行和列来得到子集。

在对原始的表格进行处理时,一个常用的操作时对原来的表格进行分组,可以使用 groupby 函数来实现。

如果想要尽量提升性能,需要尽量避免循环操作,转而使用系统内置的函数来处理数据,得到想要的结果,如

df.groupby(['age', 'gender'])['consum'].transform('count')
df.groupby(['age', 'gender'])['consum'].transform(sum)
df.groupby(['age', 'gender'])['consum'].transform('mean')

还可以使用第三方并行库来进行加速,如 modin, swifter 等。参见:

https://zhuanlan.zhihu.com/p/81554435

https://zhuanlan.zhihu.com/p/82560840

https://www.cnblogs.com/wkang/p/9794678.html

选择子集的方式参加:
https://zhuanlan.zhihu.com/p/99223469

对数据进行合并,排序,条件查询,分组等,参见:

https://zhuanlan.zhihu.com/p/59712253

一个常见的操作时统计 一个 series 里重复元素的个数,可以直接使用函数

ser.value_counts()

ser.unique() 返回去重的样本。

参见:

https://blog.csdn.net/NormanBeita/article/details/89474540

Visits: 491

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

*