如何训练具有多个独立时间序列的 LSTM 神经网络？答案

【问题标题】：How to train a LSTM Neural Network with multiple independent timeseries?如何训练具有多个独立时间序列的 LSTM 神经网络？
【发布时间】：2019-11-14 12:57:26
【问题描述】：

假设我有 3 个传感器（Sa、Sb 和 Sc），它们仅在 1 月份测量每日气温（因此在儒略天 1 到 31 期间）。假设我有 3 年的完整数据集，并且按顺序计算天数（1 到 365：第一年，366 到 730：第二年......）。所以我的数据集是这样的：

     -------- ------ -------
    | Sensor | Day  | Value |
    |  Sa    |   01 |  7.2  |
    |  Sa    |   02 |  7.0  |
       ...
    |  Sa    |   31 |  5.9  |
    |  Sa    |  366 |  7.4  |
    |  Sa    |  367 |  7.5  |
       ...
    |  Sa    | 1095 |  5.5  |
    |  Sb    |   01 |  6.9  |
    |  Sb    |   02 |  7.1  |
       ...
    |  Sb    | 1095 |  5.6  |
    |  Sc    |   01 |  6.8  |
       ...
    |  Sc    | 1095 |  4.1  |
     -------- ------ -------

我想预测时间 t 给定 t-4 到 t-1 的值（所以 x 大小为 3，y 大小为 1）。正如我们所看到的，我们有 9 个连续的时间序列（Sa 从第 1 天到第 31 天，Sa 从第 366 天到第 730 天......从 Sb 的第 1 天到第 31 天......）。考虑到这种情况下的批处理问题，我应该如何组织我的训练集？

到目前为止，考虑到“有效”序列，我将数据拆分为 x/y 2D 矩阵，它是：

  features_set         labels
 | x1  |  x2 |  x3 |   |   y |
 | 7.2 | 7.0 | 6.9 |   | 6.7 |   (sample 1: for Sa days 1 to 3 -> 4)
 | 7.0 | 6.9 | 6.7 |   | 6.8 |   (sample 2: for Sa days 2 to 4 -> 5)
 ...
 | 5.7 | 5.8 | 5.8 |   | 5.9 |   (sample 31: for Sa days 28 to 30 -> 31)
 | 7.4 | 7.5 | 7.4 |   | 7.3 |   (sample 32: for Sa days 366 to 368 -> 369)
 ...
 | 7.0 | 6.9 | 6.7 |   | 6.8 |   (sample 251: for Sc days 1092 to 1094 -> 1095)

请注意，样本 1 到 31 是 Sa 第一个月的经典“移位序列”，但样本 31 和 32 之间的时间序列存在“中断”，因为样本 31 是 Sa 第一年的一部分测量和样本 32 是第二年测量的一部分。

如果我以 32 的批大小 (N) 训练 NN，我获得的最小损失函数为 0.5。当我将批量大小减少到 8 时，我会损失 0.1 到 0.05。当批量大小为 1 时，我得到 0.04（这似乎是可以获得的最小值）。

model = Sequential()
model.add(LSTM(4, input_shape=(features_set.shape[1], 1)))
model.add(Dense(1))

model.compile(loss='mean_squared_error', optimizer='adam')
model.fit(features_set, labels, epochs=100, batch_size=N)

（其中 features_set 是一个 251x3x1 的浮点矩阵，labels 是一个 251x1x1 的浮点矩阵）

那么大批量的选择是否会导致像 31 和 32 这样的样本被一起批量处理？这是导致训练结果更差的原因吗？除了使用批量大小为 1 之外，如何处理这种情况？

【问题讨论】：

标签： python keras neural-network lstm training-data

【解决方案1】：

首先，我会将 0 到 1 之间的数据标准化。

看看较小的学习率和更多的时期是否有帮助。

您有大小为 [3,3] 的批次，例如 3 个传感器和 3 个时间步长。您正在针对大小为 [1,1] 的输出训练每个批次

我的猜测是，当您包含更多批次时，误差会更大，因为模型正在考虑来自 32 个样本而不是 1 个样本的误差。我会保持您的批次大小不变。

如果有帮助，这个模型看起来类似于：https://towardsdatascience.com/predicting-stock-price-with-lstm-13af86a74944

【讨论】：