pandas 读取表格后会生成一个 dataframe 对象,一个 dateframe 对象实际上就是一个表格。同一般表格类似,dateframe 对象由三部分组成,表头,index,和表格内容。具体到存储方式上,实际上一个表格被存储为一个 numpy 的二维列表。
使用 dataframe 的关键即是从原初的表格中选择子集。假设表格名称时df, 在选择时可以直接 df[‘age’] 也可以使用 df.loc[12], dfloc[12:23] 来选择表格的一部分。 df[12:23, [‘age’, ‘name’]] 可同时选择行和列来得到子集。
在对原始的表格进行处理时,一个常用的操作时对原来的表格进行分组,可以使用 groupby 函数来实现。
如果想要尽量提升性能,需要尽量避免循环操作,转而使用系统内置的函数来处理数据,得到想要的结果,如
df.groupby(['age', 'gender'])['consum'].transform('count') df.groupby(['age', 'gender'])['consum'].transform(sum) df.groupby(['age', 'gender'])['consum'].transform('mean')
还可以使用第三方并行库来进行加速,如 modin, swifter 等。参见:
https://zhuanlan.zhihu.com/p/81554435
https://zhuanlan.zhihu.com/p/82560840
https://www.cnblogs.com/wkang/p/9794678.html
选择子集的方式参加:
https://zhuanlan.zhihu.com/p/99223469
对数据进行合并,排序,条件查询,分组等,参见:
https://zhuanlan.zhihu.com/p/59712253
一个常见的操作时统计 一个 series 里重复元素的个数,可以直接使用函数
ser.value_counts()
ser.unique() 返回去重的样本。
参见:
https://blog.csdn.net/NormanBeita/article/details/89474540
Visits: 491