时间序列 - 使用 timeSlice 方法分割数据答案

【问题标题】：Time Series - Splitting Data Using The timeSlice Method时间序列 - 使用 timeSlice 方法分割数据
【发布时间】：2015-07-25 19:44:02
【问题描述】：

参考这篇文章：createTimeSlices function in CARET package in R 其中建议使用 createTimeSlices 作为使用时间序列数据时交叉验证的选项。我想了解如何在 trainControl 中选择“initialWindow”、“horizon”和“fixedWindow”的值。

它们在插入符号中定义如下 (?createTimeSlices)：

initialWindow - 每个训练集样本中连续值的初始数量

horizon - 测试集样本中连续值的个数

fixedWindow - 一个逻辑：如果为 FALSE，训练集总是从第一个样本开始。

有人可以进一步详细说明如何为 initialWindow 和 Horizon 选择正确的值，以及为 fixedWindow 选择 TRUE 或 FALSE 的实际含义吗？

【问题讨论】：

标签： r cross-validation

【解决方案1】：

initialWindow：第一次建模迭代的训练集/窗口的大小。这应该有多大取决于您要拟合的模型的复杂性，因此您必须研究预期获得可靠拟合的最小样本量。显然，更复杂的模型需要更大的窗口，例如参见 Measuring forecast accuracy, p. 6.

fixedWindow：如果TRUE这意味着一个移动窗口（总是等于initialWindow的大小），如果FALSE它意味着一个growth 窗口（换句话说，它总是从第一个样本开始）。在插入符号的模型的通常输出中，您可以观察训练样本的大小以及它是增长还是移动，如 (fixedWindow = FALSE, horizon = 1)：

Resampling: Rolling Forecasting Origin Resampling (1 held-out with no fixed window) 

Summary of sample sizes: 100, 101, 102, 103, 104, 105, ...

horizon：这定义了模型被测试的连续步数。插入符号模型的输出总结了模型在预测 n 步时的准确性。此处应选择的值取决于您的应用，即是否需要短期或长期预测。再次参见测量预测准确度，第 10 页。 7.

【讨论】：