提取具有最频繁值的行答案

【问题标题】：Extracting rows with most frequent value提取具有最频繁值的行
【发布时间】：2020-06-27 12:25:14
【问题描述】：

有一个包含几列的数据框，我想从中为每个具有最频繁数字（“否”）的个人“家庭”提取一行。我已经用一个似乎可行的 for 循环对此进行了测试，但作为一个新手，我想知道是否有更短/更智能的方法。

这是一个简短的示例代码：

import pandas as pd


ind = [ ('A', 'a', 0.1 , 9) ,
             ('B', 'b', 0.6  , 10) ,
             ('C', 'b', 0.4 , 10) ,
             ('D', 'b', 0.2, 7) ,
             ('E', 'a', 0.9  , 6) ,
             ('F', 'b', 0.7 , 11)
              ]


df = pd.DataFrame(ind, columns = ['Name' , 'Family', 'Prob', 'No'])

res = pd.DataFrame(columns = df.columns)

for name,g in df.groupby('Family'):
    v = g['No'].value_counts().idxmax()
    idx = g['No'] == v
    si = g[idx].iloc[0]
    res = res.append(si)
print(res)

我查看了几个示例，其中一些示例类似于 this，但这样我只能得到“家庭”和“否”，而不是整行......

【问题讨论】：

标签： python pandas filter pandas-groupby

【解决方案1】：

这里是使用 duplicated 和 mode+groupby 与模式的替代方案：

c = df['No'].eq(df.groupby('Family')['No'].transform(lambda x: x.mode().iat[0]))
c1 = df[['Family','No']].duplicated()
output = df[c & ~c1]

  Name Family  Prob  No
1    B      b   0.6  10
4    E      a   0.9   6

【讨论】：

非常感谢#anky_91
@ErikThysell 很高兴我能帮上忙 :)

【解决方案2】：

在第一种模式下使用GroupBy.transform，然后通过DataFrame.drop_duplicates过滤并最后删除重复项：

df1 = (df[df.groupby('Family')['No'].transform(lambda x: x.mode().iat[0]).eq(df['No'])]
         .drop_duplicates(['Family','No']))
print (df1)
  Name Family  Prob  No
1    B      b   0.6  10
4    E      a   0.9   6

【讨论】：