在 pandas / python 中对条件值进行分组和计数答案

【问题标题】：Group by and count conditional values in pandas / python在 pandas / python 中对条件值进行分组和计数
【发布时间】：2020-02-13 23:53:07
【问题描述】：

请，我需要在我的 python/pandas 代码中计算两个具有条件值的独立列。请参阅使用 lambda 的示例：

self._df = self._df.groupby(['id', 'field1', 'field2'])['fieldX', 'fieldY'].apply(lambda x: pd.Series([(x['fieldX'] == 1).sum(), (x['fieldY'] == 2).sum()])).reset_index()

这段代码很慢。没有 lambda 的 pandas 和 group by 还有另一种方法吗？

谢谢

【问题讨论】：

标签： python pandas group-by count conditional-statements

【解决方案1】：

是的，这是可能的。首先使用DataFrame.assign比较两列，转换为整数并将列分配回原来的，所以最后只需要聚合sum：

self._df = (self._df.assign(fieldX = (self._df['fieldX'] == 1).astype(int),
                            fieldY = (self._df['fieldY'] == 2).astype(int))
                    .groupby(['id', 'field1', 'field2'])['fieldX', 'fieldY']
                    .sum()
                    .reset_index())

【讨论】：