周一不睡觉，也要把pandas groupy 肝完，你该这么学，No.8

栏目: 数据库 · 发布时间: 6年前

内容简介：为啥一样啊，因为要肝的你看，学编程有很多好处掉头发，有借口吧不洗头，有借口吧

为啥一样啊，因为要肝的

你看，学编程有很多好处

掉头发，有借口吧不洗头，有借口吧

不洗袜子，有借口吧不去看电影，有借口吧不陪女朋友，有借口吧

活该单身， (❁´◡`❁) ✲ﾟ

哈哈，唯独梦想橡皮擦，她就比较厉害了，

身边的大佬全是综上所述，嘿嘿嘿

学个pandas在不找点乐趣，咋学啊

大周一的，弄点啥？

遥记得，上一篇最后，我说要写groupby的高级函数

后来自己理了理，忽然觉得真难

不想了写了... ...

后来，转念一想，不行啊，我是大佬啊

咋能不写

于是乎，我就写了今天这篇博客

groupby 核心为 split-apply-combine

啥意思呢，就是字面意思呗

分割-应用-组合

分割，就是按照一些标准进行数据的拆分
应用，给分好的组，应用一些函数上去
组合，分组的数据，捣鼓捣鼓，弄成一个新的数据结构，方便后面应用

Over

这就是groupby的核心

分割，或者叫分组（拆分）步骤，是最简单的，看好数据，写代码就可以了（说的好像很容易似的）

使用最多的，对我们来说是想要对数据进行一些基本的 应用

也就是分组之后，我们要计算

官方文档里面介绍groupby要实现的效果

就是想 模拟SQL 的操作

SQL是啥？数据库的那个脚本语言（你不会不会写吧，哈哈哈O(∩_∩)O哈哈~）

groupby在模仿的就是下面这句话

select col1,col2,count(col3),sum(col4) from one_table
group by col1,col2
复制代码

咦，如果你看到上面的 SQL 语句

发现，这个我熟悉啊

那么接下来，学习就easy了

当然，如果你不是很清楚那就要看你的悟性了

将一个dataframe对象分割成组

其实这个咱上篇文章已经做过了

再学一次，没毛病

举个代码的例子

import pandas as pd
df = pd.DataFrame([('class1','boy',100),
                   ('class2', 'boy', 90),
                   ('class3', 'girl', 80),
                   ('class1', 'unkown', None),
                   ('class2', 'unkown', 90)],index=['dawa','erwa','sanwa','siwa','wuwa'],columns=['class','sex','weight'])

print(df)
复制代码

看着迷糊么？我其实就是做了这么一个表格

咱去excel里面瞅瞅

pandas里面打印的无非是英文

class     sex  weight
dawa   class1     boy   100.0
erwa   class2     boy    90.0
sanwa  class3    girl    80.0
siwa   class1  unkown     NaN
wuwa   class2  unkown    90.0
复制代码

一样的，接下来，基本操作

走位，走位，瞬间清晰

print(df.groupby('class'))
print(df.groupby('sex',axis='columns'))
print(df.groupby(['class','sex']))

复制代码

第一个，你肯定会第二个，修改axis的轴，按照columns进行分组了，先不用管有没有意义哦第三个，请注意，有两个列名在一个数组里面，叫做先按照class分组，在按照sex分组

那么groupby里面可以给哪些值呢？

难不成只有上面的三种

天真了吧

看操作

给一个 python 函数，可以作用于每一个目标轴标签上，不好理解
list列表或者numpy的数组，长度和被选择的轴一致
字典或者Series,格式参照 label->group name
提供一个字符串，比如 df.groupby('A') 和 df.groupby(df['A']) 是一样的
上面任意一条，构成的list列表

好了，难吧

没错，说了，从这篇博客开始就开始高级部分学习了

嘿嘿

简单的多列分组代码代码如下

df = pd.DataFrame({'A': ['girl', 'boy', 'girl', 'boy',
                         'girl', 'boy', 'girl', 'girl'],
                   'B': ['one', 'one', 'two', 'three',
                         'two', 'two', 'one', 'three'],
                   'C': [3,1,4,5,6,7,8,1],
                   'D': [9,1,2,3,1,6,4,3]})

print(df)

grouped = df.groupby('A')
print(grouped)
grouped = df.groupby(['A','B'])
print(grouped)

复制代码

对于一个待分组的dataframe对象来说你可以直接用'A'或者'B'中的一个进行分组当然也可以直接用['A','B']进行分组

这个要看你实际的需求了啊

分组之后，我们能干点啥？

当然是获取分组之后的数据啊

print(grouped.get_group('boy'))
print(grouped.get_group('girl'))
复制代码

小函数，送上一枚

get_group('key name')

除了获取分组之后的数据，在送你个常用小属性，瞅瞅

grouped = df.groupby('A')
print(grouped)
print(grouped.groups)
复制代码

groups这个属性非常常用哦~因为我们时常需要看一下，分组结果是否争取e

{'boy': Int64Index([1, 3, 5], dtype='int64'), 'girl': Int64Index([0, 2, 4, 6, 7], dtype='int64')}
复制代码

当然学习吗，你可以使用help和dir把帮助文档弹出来然后所有的属性和方法都清晰可见了

print(dir(grouped))
print(help(grouped))
复制代码

到最后了，我在嘚啵一个知识点，这个知识点是series的

为什么又返回来，开始学习series了呢

还不是因为直接学习dataframe的多列分组，难度太大

我们先弄一个完美的测试栗子

arrays = [['a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
          ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]


index = pd.MultiIndex.from_arrays(arrays=arrays,names=['first','second'])

s = pd.Series([3,1,4,1,5,9,2,6],index=index)

print(s)
复制代码

这个series长成这个样子

first  second
a      one       3
       two       1
b      one       4
       two       1
c      one       5
       two       9
d      one       2
       two       6
dtype: int64
复制代码

一定要看明白，是分级索引哦

接下来对它进行分组，并且求和

比如，我要计算first列下面的a的和，b的和，c的和,d的和

我们可以通过level参数控制

# 这两个一个意思
print(s.groupby(level=0))
print(s.groupby(level='first'))
复制代码

grouped = s.groupby(level=0)
print(grouped.sum())
复制代码

搞定，看看结果

没毛病

对于second列，我们也可以分组求和的哦

grouped = s.groupby(level='second')
print(grouped.sum())
复制代码

咦，好像发现点问题

print("分组求和")
grouped = s.groupby(level='second')
print(grouped.sum())
print("sum函数求和")

print(s.sum(level='second'))

复制代码

一样唉~

其实 参数level 也可以这么写呢 level=['first','second']

好了，今天肝不动了

明天我们继续吧

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

MySQL性能调优与架构设计

简朝阳 / 2009-6 / 59.80元

《MySQL性能调优与架构设计》以 MySQL 数据库的基础及维护为切入点，重点介绍了 MySQL 数据库应用系统的性能调优，以及高可用可扩展的架构设计。全书共分3篇，基础篇介绍了MySQL软件的基础知识、架构组成、存储引擎、安全管理及基本的备份恢复知识。性能优化篇从影响 MySQL 数据库应用系统性能的因素开始，针对性地对各个影响因素进行调优分析。如 MySQL Schema 设计的技巧......一起来看看《MySQL性能调优与架构设计》这本书的介绍吧!

码农工具