如何根据列条目从熊猫数据框中删除随机行？答案

【问题标题】：How to remove random rows from pandas dataframe based on column entry?如何根据列条目从熊猫数据框中删除随机行？
【发布时间】：2019-03-02 13:08:03
【问题描述】：

我有一个约 3700 行的数据集，需要根据列删除其中的 1628 行。数据集如下所示：

compliance  day0  day1  day2  day3  day4
True        1     3     9     8     8
False       7     4     8     3     2
True        4     5     0     3     5
True        5     3     9     6     2

对于 1068 行，如果合规性 = true，我想删除整行。

问题是，我想随机执行此操作；我不想删除前 1063 行。我试过这个：

for z in range(1629):
    rand = random.randint(0,(3783-z)) #subtract z since dataframe shape is shrinking
    if str(data.iloc[rand,1]) == 'True':
        data = data.drop(balanced_dataset.index[rand])

但在删除几行后，我收到以下错误：

 'labels [2359] not contained in axis'

我也试过这个：

data.drop(data("adherence.str.startswith('T').values").sample(frac=.4).index)

frac 现在是任意选择的，我只是想让它工作。我收到以下错误：

'DataFrame' object is not callable

任何帮助将不胜感激！谢谢

【问题讨论】：

我还发现它一直有效，直到随机数两次给出相同的数字
见stackoverflow.com/questions/41973423/…类似问题

标签： python pandas dataframe random

【解决方案1】：

将sample 与drop 一起使用：

n = 1068
# Do this first if you haven't already.
# df.compliance = df.compliance.map(pd.eval)
df_dropped = df.drop(df[df.compliance].sample(n=n).index)

为此，n 需要严格小于过滤后的 DataFrame。

示例随机删除两行。

df.drop(df[df.compliance].sample(n=2).index)

   compliance  day0  day1  day2  day3  day4
1       False     7     4     8     3     2
3        True     5     3     9     6     2

【讨论】：

【解决方案2】：

这对我有用：您生成要从中删除元素的索引列表（在您的情况下为Compliance==True）。然后，您从该列表中随机选择（不替换）您希望删除的元素。然后将它们从 DataFrame 中删除

to_remove = np.random.choice(data[data['Compliance']==True].index,size=1068,replace=False)
data.drop(to_remove)

【讨论】：

【解决方案3】：

你可以试试：

df_dropped = df.drop(df.loc[df.compliance, :]).sample(n=fraction).index)

【讨论】：