【发布时间】:2021-11-20 15:38:10
【问题描述】:
我需要将大型气象时间序列数据框拆分为训练和验证样本。它包含来自多个站点的数据,这些站点具有不同的观测周期。我该如何划分它,以便每个站点的训练和验证观察的比例相等。给定以下数据集:
| Station | Date | temp |
|---|---|---|
| A | 2012-01-01 | -0.8 |
| A | 2012-01-02 | 0.1 |
| A | 2012-01-03 | 0.5 |
| A | 2012-01-04 | 0.4 |
| B | 2012-01-01 | 0.1 |
| B | 2012-01-02 | 0.5 |
并假设训练集应仅包含来自每个站点的前 50% 的观测值,所需的输出将是:
| Station | Date | temp |
|---|---|---|
| A | 2012-01-01 | -0.8 |
| A | 2012-01-02 | 0.1 |
| B | 2012-01-01 | 0.1 |
【问题讨论】:
-
请不要发布数据或代码的照片!如果您这样做,愿意帮助您的人将不得不输入所有文本。相反证明了minimal reproducible example这里是a good overview on how to ask a good question
-
这能回答你的问题吗? Stratified random sampling from data frame
-
@dario,thanx 链接,但它使用随机/分层分区,而我的问题建议应将观察结果提取为连续的子周期。重新发表您的第一条评论,它不是代码/照片,但我确实接受可重现的示例更合适。对不起,我是新手
标签: r time-series partitioning