更深的 LSTM 需要更多的单元吗？答案

【问题标题】：Does deeper LSTM need more units?更深的 LSTM 需要更多的单元吗？
【发布时间】：2020-03-20 13:59:42
【问题描述】：

我将 LSTM 应用于具有 20 个滞后的时间序列预测。假设我们有两种情况。第一个只使用五个滞后，第二个（如我的情况）使用 20 个滞后。对于第二种情况，与前一种情况相比，我们需要更多的单位是否正确？如果是，我们如何支持这个想法？我有 2000 个样本用于训练模型，所以这是增加单元数量的主要限制。

【问题讨论】：

【解决方案1】：

很难给出准确的答案，因为时间步长和隐藏单元数量之间的关系不是一门精确的科学。例如，以下因素会影响所需的单位数量。

我敢肯定还有其他因素，但这些都是我想到的。

证明更多的单位可以得到更好的结果，同时有更多的时间步长（如果为真）

这应该相对容易，因为您可以尝试几种不同的选项，

如果您在 20 个滞后问题上获得比 5 个滞后问题（当您使用 50 个单位时）更好的性能（例如，较低的 MSE），那么您的观点已经得到了理解。您可以通过使用不同类型的模型（例如 LSTM 与 GRU）显示结果来强化您的主张。

【讨论】：

假设我用 50 个单位尝试 20 个滞后。在这种情况下，模型的参数数量高于样本数量。所以我认为至少，我不应该超过这个门槛。你怎么看待这件事？用上面提到的样本数量来尝试这种 LSTM 结构在数学上是否合乎逻辑？
@user2991243 所以我假设你在问如果隐藏单元的数量超过时间步的数量是好还是坏。这不一定是坏事。例如，如果您的问题有很多输入特征，那么拥有更多隐藏单元仍然是有意义的。