【问题标题】:How to remove random rows from pandas dataframe based on column entry?如何根据列条目从熊猫数据框中删除随机行?
【发布时间】:2019-03-02 13:08:03
【问题描述】:

我有一个约 3700 行的数据集,需要根据列删除其中的 1628 行。数据集如下所示:

compliance  day0  day1  day2  day3  day4
True        1     3     9     8     8
False       7     4     8     3     2
True        4     5     0     3     5
True        5     3     9     6     2

对于 1068 行,如果合规性 = true,我想删除整行。

问题是,我想随机执行此操作;我不想删除前 1063 行。我试过这个:

for z in range(1629):
    rand = random.randint(0,(3783-z)) #subtract z since dataframe shape is shrinking
    if str(data.iloc[rand,1]) == 'True':
        data = data.drop(balanced_dataset.index[rand])

但在删除几行后,我收到以下错误:

 'labels [2359] not contained in axis'

我也试过这个:

data.drop(data("adherence.str.startswith('T').values").sample(frac=.4).index)

frac 现在是任意选择的,我只是想让它工作。我收到以下错误:

'DataFrame' object is not callable

任何帮助将不胜感激!谢谢

【问题讨论】:

标签: python pandas dataframe random


【解决方案1】:

sampledrop 一起使用:

n = 1068
# Do this first if you haven't already.
# df.compliance = df.compliance.map(pd.eval)
df_dropped = df.drop(df[df.compliance].sample(n=n).index)

为此,n 需要严格小于过滤后的 DataFrame。


示例随机删除两行。

df.drop(df[df.compliance].sample(n=2).index)

   compliance  day0  day1  day2  day3  day4
1       False     7     4     8     3     2
3        True     5     3     9     6     2

【讨论】:

    【解决方案2】:

    这对我有用: 您生成要从中删除元素的索引列表(在您的情况下为Compliance==True)。然后,您从该列表中随机选择(不替换)您希望删除的元素。 然后将它们从 DataFrame 中删除

    to_remove = np.random.choice(data[data['Compliance']==True].index,size=1068,replace=False)
    data.drop(to_remove)
    

    【讨论】:

      【解决方案3】:

      你可以试试:

      df_dropped = df.drop(df.loc[df.compliance, :]).sample(n=fraction).index)

      【讨论】:

        猜你喜欢
        • 2015-10-15
        • 1970-01-01
        • 1970-01-01
        • 2017-10-04
        • 1970-01-01
        • 2021-11-02
        • 2021-07-18
        相关资源
        最近更新 更多