【问题标题】:Time Series - Splitting Data Using The timeSlice Method时间序列 - 使用 timeSlice 方法分割数据
【发布时间】:2015-07-25 19:44:02
【问题描述】:

参考这篇文章:createTimeSlices function in CARET package in R 其中建议使用 createTimeSlices 作为使用时间序列数据时交叉验证的选项。我想了解如何在 trainControl 中选择“initialWindow”、“horizo​​n”和“fixedWindow”的值。

它们在插入符号中定义如下 (?createTimeSlices):

initialWindow - 每个训练集样本中连续值的初始数量

horizo​​n - 测试集样本中连续值的个数

fixedWindow - 一个逻辑:如果为 FALSE,训练集总是从第一个样本开始。

有人可以进一步详细说明如何为 initialWindow 和 Horizo​​n 选择正确的值,以及为 fixedWindow 选择 TRUE 或 FALSE 的实际含义吗?

【问题讨论】:

    标签: r cross-validation


    【解决方案1】:

    initialWindow:第一次建模迭代的训练集/窗口的大小。这应该有多大取决于您要拟合的模型的复杂性,因此您必须研究预期获得可靠拟合的最小样本量。显然,更复杂的模型需要更大的窗口,例如参见 Measuring forecast accuracy, p. 6.

    fixedWindow:如果TRUE这意味着一个移动窗口(总是等于initialWindow的大小),如果FALSE它意味着一个growth 窗口(换句话说,它总是从第一个样本开始)。在插入符号的模型的通常输出中,您可以观察训练样本的大小以及它是增长还是移动,如 (fixedWindow = FALSE, horizon = 1):

    Resampling: Rolling Forecasting Origin Resampling (1 held-out with no fixed window) 
    
    Summary of sample sizes: 100, 101, 102, 103, 104, 105, ... 
    

    horizon:这定义了模型被测试的连续步数。插入符号模型的输出总结了模型在预测 n 步时的准确性。此处应选择的值取决于您的应用,即是否需要短期或长期预测。再次参见测量预测准确度,第 10 页。 7.

    【讨论】:

      猜你喜欢
      • 2017-02-11
      • 2012-04-02
      • 2012-02-21
      • 2018-06-05
      • 2021-10-28
      • 2020-05-18
      • 1970-01-01
      • 2021-06-20
      • 2016-05-25
      相关资源
      最近更新 更多