CVPR 2017 On human motion prediction using recurrent neural networks 论文解读

Sequence-to-Sequence (seq2seq)模型类似于之前提过的temporal encoder模型，由encoder和decoder组成，encoder接收序列并生成内部的状态，decoder接收该状态并生成预测值。seq2seq常常用于自然语言处理，输入输出都为序列，而对于人体运动预测需要学习时间上的相关性，所以同样适合，输入一组固定帧数的数据，输出对人体运动的后几帧预测

Sampling-based loss

之前的背景中提到RNN无法只学习真实值，作者也提到了一些解决方案，比如加入噪音（noise scheduling）或者对抗网络，但这些方法都需要额外的调参。作者提出了一种简单的方式解决这个问题，在训练阶段用decoder生成预测值，并将其作为自己的输入。这种方法的优势在于不需要任何调参。方法的实现在图中作者的模型中表现为蓝色的连线。

Residual architecture

为了解决第一帧预测值不连续的问题，作者提出了residual architecture。原理为添加了速度这一概念，并替换之前认为的预测人体的姿势。即每一帧的预测相当于预测速度的变化值，而不是预测人体姿势本身。所以第一帧的预测便简化为0速度或者接近0速度的预测。而实现方式也较为简单，在每一个RNN模块的输入和输出上添加一个链接，从而学习速度的变化。在图中可见decoder中input和output存在一个链接。

Experiments（实验）

Experiments detail（实验细节）

作者考虑了两种输入方式。第一种对输入使用了one-hot vectors，其中包含15种动作类型，第二种不使用one-hot vectoes
RNN的模块，作者选用了single gated recurrent unit（GRU），其中包含1024个神经元。相比于LSTMs计算量更小
每次输入的值设置为2秒的数据，每次输出的值设置为1秒的预测（长期预测）或者400毫秒（短期预测）

Experiments results（实验结论）

CVPR 2017 On human motion prediction using recurrent neural networks 论文解读

从实验结果看，添加了Sampling-based loss以及residual architecture之后，模型能有较好的表现。并且在非单一运动类型数据集中也能有较小的误差。

CVPR 2017 On human motion prediction using recurrent neural networks 论文解读

从预测结果看，作者的模型完美解决了第一帧不连续的问题。

Summary（总结）

作者基于sequence-to-sequence模型之上进行了一系列优化用于解决使用RNN所碰到的问题。
使用Sampling-based loss，在训练阶段将decoder预测的值加入自己的输入中以解决RNN只学习真实值而不能从自己错误中恢复的问题。
使用residual connection，以学习速度代替学习人物姿势本身做到消除第一帧不连续的问题，通过在每个RNN模块建立一条输入和输出的链接实现。