【问题标题】:Python - pandas, group by and max countPython - 熊猫,分组和最大计数
【发布时间】:2022-01-12 06:35:50
【问题描述】:

我需要来自 column cluster-2 的 column cluster-1 中最相似的(最大计数)。

输入 - 数据

输出 - 数据

我使用命令:df.groupby(['cluster-1','cluster-2'])['cluster-2'].count() 这个命令会给我计数列 cluster-2 中的每次出现。我需要关于如何进行的建议,谢谢。

【问题讨论】:

    标签: python pandas group-by pandas-groupby


    【解决方案1】:

    使用SeriesGroupBy.value_counts,因为默认情况下已排序值,因此可以通过MultiIndex.to_frameMultiIndex 转换为DataFrame,然后通过cluster-1DataFrame.drop_duplicates 中删除重复项:

    df1 = (df.groupby(['cluster-1'])['cluster-2']
             .value_counts()
             .index
             .to_frame(index=False)
             .drop_duplicates('cluster-1'))
    

    【讨论】:

    • 你能告诉我更多关于其他输出的信息吗?谢谢。
    • @PatrikNovotný - 是否可以创建像文本一样的示例数据?
    • 我编辑了问题,还有输出2。我也需要这个输出,谢谢。
    猜你喜欢
    • 1970-01-01
    • 2018-04-29
    • 2017-03-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多