Python - 熊猫，分组和最大计数

【问题标题】：Python - pandas, group by and max countPython - 熊猫，分组和最大计数
【发布时间】：2022-01-12 06:35:50
【问题描述】：

我需要来自 column cluster-2 的 column cluster-1 中最相似的（最大计数）。

输入 - 数据

输出 - 数据

我使用命令：df.groupby(['cluster-1','cluster-2'])['cluster-2'].count() 这个命令会给我计数列 cluster-2 中的每次出现。我需要关于如何进行的建议，谢谢。

【问题讨论】：

标签： python pandas group-by pandas-groupby

【解决方案1】：

使用SeriesGroupBy.value_counts，因为默认情况下已排序值，因此可以通过MultiIndex.to_frame 将MultiIndex 转换为DataFrame，然后通过cluster-1 在DataFrame.drop_duplicates 中删除重复项：

df1 = (df.groupby(['cluster-1'])['cluster-2']
         .value_counts()
         .index
         .to_frame(index=False)
         .drop_duplicates('cluster-1'))

【讨论】：

你能告诉我更多关于其他输出的信息吗？谢谢。
@PatrikNovotný - 是否可以创建像文本一样的示例数据？
我编辑了问题，还有输出2。我也需要这个输出，谢谢。