了解grid lstm的输入。答案

【问题标题】：Understanding the input of grid lstm.了解grid lstm的输入。
【发布时间】：2017-05-24 03:31:54
【问题描述】：

我正在考虑在图像上应用 grid-lstm。从其原始论文中说：

请注意，块不接收单独的数据表示。一个数据点通过一对沿网格一侧的输入隐藏向量和记忆向量投影到网络中。

据我了解，这意味着不同于lstm的其他变体，例如多维lstm，其输入是*[所有先前隐藏向量，I*x]的串联，网格lstm不接收数据点（比如 RGB 值）作为输入。相反，这些 RGB 特征直接用作 grid-lstm 一侧的隐藏/记忆状态。那是对的吗？

【问题讨论】：

【解决方案1】：

根据我的理解（并根据图 2），输入数据直接输入到隐藏向量和记忆向量中。此外，输出来自传出内存和隐藏向量。这表明，如有必要，原始输入可以通过整个深度维度（解决梯度消失问题）。

但是，这并不影响输入投影 (I * x)，我将其解释为一种预处理方法（例如翻译示例 4.4 中的词嵌入）。我相信，选择 I * x 的符号是为了显示模型的简单性。我们仍然在技术上连接所有传入的隐藏向量，堆叠/MD-LSTM 也是如此。 RGB 点仍然用作向量，见第 2.1 节：

(...) 包含隐藏向量 h ∈ R^d 和记忆向量 m ∈ R^d 的网络状态。

d，对于 RGB 图像，将是 3。这是稍后使用的 LSTM 的定义，因此我们可以假设 Grid-LSTM 也是如此。

【讨论】：