通过 for 循环将数据集拆分为特定数量的样本答案

【问题标题】：Split dataset to specific number of sample by for loop通过 for 循环将数据集拆分为特定数量的样本
【发布时间】：2021-12-30 11:12:09
【问题描述】：

我有一个 35136×1 矩阵，其中包含 366 天的功率数据，每天有 96 次测量）。我想从 252 天中抽取一个样本：“第 1 天到第 7 天”的功率数据是第一个样本，“第 2 天到第 8 天”的功率数据是第二个样本等），并将我的矩阵重塑为大小[96 7 1 252]。
我写了以下代码，但我得到了 36 个样本而不是 252 个

m=7;
for j=1
    sample([j:96*m],:)=solarpower_n([j:96*m],:);
    y([(96*m)+1:96*(m+1)],:)=solarpower_n([(96*m)+1:96*(m+1)],:);
    m=m+1;
    for j=2:246
        sample([(96*(j-1))+1:96*m],:)=solarpower_n([(96*(j-1))+1:96*m],:);
        y([(96*m)+1:96*(m+1)],:)=solarpower_n([(96*m)+1:96*(m+1)],:);
        m=m+1;
    end
end

我想每 7 天取样一次。假设D 是天数，M 是每天的功率测量次数。 252 天，M=[1,2,3,...,96] 和 D=[1,2,...,252]。因此，第一天的幂P1 的维度为 96*1。我想拍sample1={P1,...,P7}, sample2={P2,...,P8} , .....,sample252={P246,.....,P252}。并有一个[96 7 1 252] 4-D 数组。

我怎样才能做到这一点？

【问题讨论】：

96*7*1*252 = 169344 不等于 35136，因此重塑不起作用，因为在重塑中元素的数量不应该改变。您能否请edit 添加minimal reproducible example 的问题，即我们可以运行的代码？包括一小部分数据（或随机数据，如果您无法共享原始数据），例如2 或 3 天的数据，并展示您想要在哪里采样。 96 x 252 很简单 (reshape(data(1:96*252),[96 252]))，但你的 7 号第二维从何而来？
感谢您的回复。我想每 7 天取样一次。让我们将“D”作为天数，将“M”作为每天的功率测量次数。 252 天， M={1,2,3,...,96} 和 D={1,2,...,252} 。所以，第一天的力量，P1，有 96*1 维度。我想取 sample1={P1,...,P7}, sample2={P2,...,P8} , .....,sample252={P246,.....,P252}。并有一个 [96 7 1 252] 4-D 数组。
请参阅How to Ask。不要不将数据或代码粘贴为图像，因为我们无法将它们复制粘贴到我们的机器中。相反，按原样粘贴数据，即作为文本。此外，将所有相关信息添加到问题本身，而不是在临时 cmets 中。
请提供足够的代码，以便其他人更好地理解或重现问题。

标签： matlab for-loop sample

【解决方案1】：

以这种方式采样效率相当低，因为您要复制每个数据点 7 次。您可以简单地使用索引：

A = rand(96*366, 1);  % Sample data
B = reshape(A,[96 366]); % Reshape all your days in one go
B(:, 1:7) % first 7 days
B(:, 163:170) % Days 163 to 170, etc.

如果您确实想将数据复制 7 次到 4D 数组，您可以使用简单的 for 循环：

A = rand(96*366, 1);  % Sample data
% Note you need days 253:256, since P252 contains those days
B = reshape(A(1:96*(252+6)),[96 (252+6)]); % Reshape your first 252 days

C = zeros(size(B,1), 7, 1, size(B,2)-6);  % Initialise output

for ii = 1:size(B,2)-6
   C(:, :, :, ii) = B(:, ii:ii+6);  % Save each 7 day sample
end

摆脱for 循环很困难，因为您需要一个滑动窗口。某处可能有专门的函数，但考虑到您的数据大小，循环应该足够高性能。

有关reshape() 的简短介绍，您可以阅读this answer of mine。

【讨论】：

感谢您的帮助，我不明白。我还想将 {P8},{P9},...,{Pq} 作为 q-by-1 矩阵，其中 q 是样本数，我应该如何定义？
A = solarpower_n; % Sample data B = reshape(A(1:96*(252+6)),[96 (252+6)]); ytrain = zeros(size(B,1), 1, size(B,2)); for ii = 1:size(B,2)-6 end 这段代码对吗？
@FaribaDehghan 7 号的第二个维度去哪儿了，为什么 1 号的维度仍然存在？我的代码至少在我的示例数据上有效，只需根据需要替换您的变量名。至于您的第一条评论：A）定义不明确（Pn 是问题中的 96×1 矩阵），B）不要在 cmets 中发布后续问题。请参阅what should I do when someone answers my question 并将其仅包含在一个问题中。如果您还有其他问题，请为它创建一个单独的帖子。