pandas 使用总结

pandas 读取表格后会生成一个 dataframe 对象，一个 dateframe 对象实际上就是一个表格。同一般表格类似，dateframe 对象由三部分组成，表头，index，和表格内容。具体到存储方式上，实际上一个表格被存储为一个 numpy 的二维列表。

使用 dataframe 的关键即是从原初的表格中选择子集。假设表格名称时df, 在选择时可以直接 df[‘age’] 也可以使用 df.loc[12], dfloc[12:23] 来选择表格的一部分。 df[12:23, [‘age’, ‘name’]] 可同时选择行和列来得到子集。

在对原始的表格进行处理时，一个常用的操作时对原来的表格进行分组，可以使用 groupby 函数来实现。

如果想要尽量提升性能，需要尽量避免循环操作，转而使用系统内置的函数来处理数据，得到想要的结果，如

df.groupby(['age', 'gender'])['consum'].transform('count')
df.groupby(['age', 'gender'])['consum'].transform(sum)
df.groupby(['age', 'gender'])['consum'].transform('mean')

还可以使用第三方并行库来进行加速,如 modin, swifter 等。参见：

https://zhuanlan.zhihu.com/p/81554435

https://zhuanlan.zhihu.com/p/82560840

https://www.cnblogs.com/wkang/p/9794678.html

选择子集的方式参加：
https://zhuanlan.zhihu.com/p/99223469

对数据进行合并，排序，条件查询，分组等，参见：

https://zhuanlan.zhihu.com/p/59712253

一个常见的操作时统计一个 series 里重复元素的个数，可以直接使用函数

ser.value_counts()

ser.unique() 返回去重的样本。

参见：

https://blog.csdn.net/NormanBeita/article/details/89474540

Visits: 491

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

pandas 使用总结

发表回复取消回复

近期文章

近期评论

归档

分类

其他操作

pandas 使用总结

发表回复 取消回复

近期文章

近期评论

归档

分类

标签

其他操作

发表回复取消回复