【发布时间】:2019-06-12 15:53:40
【问题描述】:
我觉得被这么简单的事情困住了这么久有点傻,但由于我正要把头穿过墙,我想我会寻求一些帮助。
我有一个循环,可以将我的数据分成更小的子集并循环遍历每个子集。对于每个循环,它会生成一个 y_test 和一个 y_pred 数组。它的大小是可变的,但形状是(X,)。为了绘制两个数组相互对比,我只是将数组分配给一个空数据框并使用matplotlib 进行绘图。
现在,我希望能够保持y_pred 和y_test 的运行总数,这样我就可以看到整个数据集的图表。
我的尝试:
最初,我只是尝试在循环之外创建另一个空数据框,并认为只是将数组附加到我的数据框列的末尾,但我发现将数组附加到数据框是不可能的。
然后我想我将每次通过循环附加到一个空数组并在最后转换为数据帧以进行绘图,但我在那里也没有太多运气,如果我理解正确 - np.append 正在创建每次我附加一个新的附加数据数组?不确定这是否会占用大量内存。
我想知道最好的方法是什么?
这是我的代码(我试图删除很多问题不需要的行,以便更容易理解):
continuous_results = pd.Dataframe()
tscv = TimeSeriesSplit(n_splits=self.no_splits)
for train_index, test_index in tqdm(tscv.split(X)):
X_train, X_test = X.iloc[train_index], X.iloc[test_index]
y_train, y_test = y.iloc[train_index], y.iloc[test_index]
self.regressor.fit(X_train, y_train.ravel())
# predict y values
y_pred = self.regressor.predict(X_test)
# plot y_pred vs y_test
y_df = pd.DataFrame()
y_pred = y_pred.reshape(len(y_pred), )
y_test = y_test.reshape(len(y_test), )
y_df['y_pred'] = y_pred
y_df['y_test'] = y_test
# failed attempts at continuous dataframe
continuous_results = continuous_results['Model'].append(y_pred[:,:])
continuous_results = continuous_results['Actual'].append(y_test)
y_df.plot()
【问题讨论】:
-
np.append只是np.concatenate的一个覆盖函数。每次都会创建一个新数组,因此重复使用时速度很慢。它也很难正确使用(什么是正确的“空”数组开始?)。通常最好将结果收集在一个列表中(列表追加是有效的),并在最后将该列表转换为一个数组。concatenate采用数组列表,而append仅适用于 2。 -
我遇到的问题是我正在使用的预测数据生成数组的函数。所以你是说将数组转换为列表并每次通过循环连接?
-
你会使用 np.array.tolist 来做到这一点吗?
-
只需将数组附加到一个列表中,然后进行一次连接,或者在末尾添加
stack -
我不必先将每个数组转换为列表然后附加到我的列表吗?
标签: python arrays pandas numpy dataframe