【问题标题】:What's the most pythonic way to count NaN's in a df agg() function?在 df agg() 函数中计算 NaN 的最 Pythonic 方法是什么?
【发布时间】:2020-11-20 11:52:52
【问题描述】:

我想在 agg() 函数之后添加一列,其中包含非 NaN 的数量。 “len”不区分 NaN 和非 Nan。 在下面的示例中,我正在探索 np.sum 和 np.mean 仅使用非 NaN 的事实。但是一定有更好的方法来达到同样的结果吗?

import pandas as pd
import numpy as np
df = pd.DataFrame({'a': [1, 1, 1, 0, 0, 0], 'b': [4, np.NaN, 2, 1, 6, np.NaN]})

df = df.groupby("a")['b'].agg([np.sum, np.mean, np.median, np.std, len])
df['count_non_nan'] = df['sum'] / df['mean']
df

【问题讨论】:

  • count 用于非空值。可以用df.groupby("a")["b"].agg(['sum', 'mean', 'median', 'std', 'count'])

标签: python numpy pandas-groupby aggregate-functions nan


【解决方案1】:

在源系列中定义一个计算非空值的函数:

def countNotNull(grp):
    return grp.notnull().sum()

不要被 notnull 函数的名称所误导。它考虑到 还有 NaN 值。

然后将此函数包含在您的聚合中:

df.groupby("a")['b'].agg([np.sum, np.mean, np.median, np.std, len, countNotNull])

结果是:

   sum  mean  median       std  len  countNotNull
a                                                
0  7.0   3.5     3.5  3.535534  3.0           2.0
1  6.0   3.0     3.0  1.414214  3.0           2.0

【讨论】:

    【解决方案2】:

    用 0 替换 np.NaN。

    import pandas as pd
    import numpy as np
    
    df = pd.DataFrame({'a': [1, 1, 1, 0, 0, 0], 'b': [4, np.NaN, 2, 1, 6, np.NaN]})
    df = df.replace(np.nan, 0)
    df = df.groupby("a")['b'].agg([np.sum, np.mean, np.median, np.std, len])
    df['count_non_nan'] = df['sum'] / df['mean']
    df
    print(df)
    

    【讨论】:

      猜你喜欢
      • 2014-05-22
      • 2014-02-20
      • 1970-01-01
      • 2018-03-06
      • 2014-09-06
      • 2010-10-04
      • 1970-01-01
      • 1970-01-01
      • 2015-09-11
      相关资源
      最近更新 更多