如何正确拆分时间序列数据以进行 sklearn 分类？答案

【问题标题】：How to a split time series data for sklearn classification correctly?如何正确拆分时间序列数据以进行 sklearn 分类？
【发布时间】：2022-01-03 00:25:42
【问题描述】：

我有一个数据集（包含 BTC 的价格数据），我试图预测价格是否会在下一分钟上涨（分类）。

如何准确拆分此数据集？当我将它随机分成一个训练集和测试集时，我得到了 74% 的准确率。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

当我禁用随机播放功能时，我的准确度会降低很多 (49%)。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=False)

这是怎么回事？我使用哪种方法？
或者有没有更好的方法将拆分时间序列数据集拆分为训练和测试数据集？

【问题讨论】：

标签： python machine-learning scikit-learn artificial-intelligence

【解决方案1】：

正确的拆分方法是保持时间有序。在这类数据上，50% 的准确率似乎是合理的（即您有 50% 的机会是正确的，50% 的机会是错误的）。

【讨论】：