【问题标题】:Groupby with User Defined Functions PandasGroupby 与用户定义的函数 Pandas
【发布时间】:2013-10-27 07:41:51
【问题描述】:

我了解将函数作为组键传递,每个索引值调用一次函数,返回值用作组名。我不知道如何在列值上调用函数。

所以我可以这样做:

people = pd.DataFrame(np.random.randn(5, 5), 
                      columns=['a', 'b', 'c', 'd', 'e'],
                      index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
def GroupFunc(x):
    if len(x) > 3:
        return 'Group1'
    else:
        return 'Group2'

people.groupby(GroupFunc).sum()

这会将数据分成两组,一组的索引值长度为 3 或更短,另一组的索引值长度为 3 或更长。但是如何传递其中一个列值?例如,如果每个索引点的 d 列值大于 1。我意识到我可以执行以下操作:

people.groupby(people.a > 1).sum()

但我想知道如何在用户定义的函数中执行此操作以供将来参考。

类似:

def GroupColFunc(x):
if x > 1:
    return 'Group1'
else:
    return 'Group2'

但是我怎么称呼它呢? 我试过了

people.groupby(GroupColFunc(people.a))

和类似的变体,但这不起作用。

如何将列值传递给函数? 我将如何传递多个列值,例如例如,是否按 people.a > people.b 分组?

【问题讨论】:

    标签: python pandas


    【解决方案1】:

    要按 > 1 分组,您可以定义如下函数:

    >>> def GroupColFunc(df, ind, col):
    ...     if df[col].loc[ind] > 1:
    ...         return 'Group1'
    ...     else:
    ...         return 'Group2'
    ... 
    

    然后这样称呼它

    >>> people.groupby(lambda x: GroupColFunc(people, x, 'a')).sum()
                   a         b         c         d        e
    Group2 -2.384614 -0.762208  3.359299 -1.574938 -2.65963
    

    或者你可以只使用匿名函数:

    >>> people.groupby(lambda x: 'Group1' if people['b'].loc[x] > people['a'].loc[x] else 'Group2').sum()
                   a         b         c         d         e
    Group1 -3.280319 -0.007196  1.525356  0.324154 -1.002439
    Group2  0.895705 -0.755012  1.833943 -1.899092 -1.657191
    

    正如documentation 中所说,您还可以通过提供标签的 Series 进行分组 -> 组名映射:

    >>> mapping = np.where(people['b'] > people['a'], 'Group1', 'Group2')
    >>> mapping
    Joe       Group2
    Steve     Group1
    Wes       Group2
    Jim       Group1
    Travis    Group1
    dtype: string48
    >>> people.groupby(mapping).sum()
                   a         b         c         d         e
    Group1 -3.280319 -0.007196  1.525356  0.324154 -1.002439
    Group2  0.895705 -0.755012  1.833943 -1.899092 -1.657191
    

    【讨论】:

    • 感谢您的详尽回答。我正在研究 McKinney 关于熊猫的书,它非常接近彻底,但我发现很难找到这样的解释。谢谢
    猜你喜欢
    • 1970-01-01
    • 2017-08-04
    • 1970-01-01
    • 2018-09-05
    • 2023-01-12
    • 1970-01-01
    • 1970-01-01
    • 2023-01-23
    • 2018-07-06
    相关资源
    最近更新 更多