【发布时间】:2013-10-27 07:41:51
【问题描述】:
我了解将函数作为组键传递,每个索引值调用一次函数,返回值用作组名。我不知道如何在列值上调用函数。
所以我可以这样做:
people = pd.DataFrame(np.random.randn(5, 5),
columns=['a', 'b', 'c', 'd', 'e'],
index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
def GroupFunc(x):
if len(x) > 3:
return 'Group1'
else:
return 'Group2'
people.groupby(GroupFunc).sum()
这会将数据分成两组,一组的索引值长度为 3 或更短,另一组的索引值长度为 3 或更长。但是如何传递其中一个列值?例如,如果每个索引点的 d 列值大于 1。我意识到我可以执行以下操作:
people.groupby(people.a > 1).sum()
但我想知道如何在用户定义的函数中执行此操作以供将来参考。
类似:
def GroupColFunc(x):
if x > 1:
return 'Group1'
else:
return 'Group2'
但是我怎么称呼它呢? 我试过了
people.groupby(GroupColFunc(people.a))
和类似的变体,但这不起作用。
如何将列值传递给函数? 我将如何传递多个列值,例如例如,是否按 people.a > people.b 分组?
【问题讨论】: