【发布时间】:2020-01-16 15:51:18
【问题描述】:
我正在尝试从我的 df 中取出一个随机样本,使用 df_sample.mean(axis =0) 对单行系列中的所有列取平均值,然后将此系列附加到一个空数据框,我想要 100 万这样的行。我得到了结果,但是运行时间太长了。有人可以建议一种有效的方法吗?
train = pd.DataFrame()
for i in range (1000000):
df_sample = df_2.sample(n=100)
row = df_sample.mean(axis=0)
train = train.append(row,ignore_index=True)
【问题讨论】:
-
我很困惑。您从数据框中采样 100 条记录,计算每行的平均值,从而为您提供 100 维列向量,然后将其作为一行附加到新数据框中?这样做的目的是什么?
-
获取具有连续变量的聚合数据集(因为均值)。我的原始数据集只有分类变量。所以,这就是为什么
标签: pandas dataframe for-loop aggregate sampling