HNU-第一周（毕设总结一）

本周的主要任务如下：
1.熟悉Pytorch，实现经典神经网络.
2.看论文，总结近几年内流行的异常行为检测的方法
3.根据上面两条，总结出自己的网络模型

最后，自己的模型主要参考了两篇文章的做法，进行了一些改进：

1）Abnormal Event Detection in Videos using Spatiotemporal Autoencoder

2）视频监控中异常事件实时检测方法研究与实现

下面介绍下两个论文的做法：

论文1：当发生异常事件时，最近的视频帧将与较旧的帧显着不同。受前人的启发，我们训练了一个端到端模型，该模型由空间特征提取器和时间编码器 - 解码器组成，它们共同学习帧输入体积的时间模式。利用仅由正常场景组成的视频量训练模型，目的是最小化输入视频量和由学习模型重建的输出视频量之间的重建误差。在对模型进行适当训练之后，预期正常视频量具有低重建误差，而由异常场景组成的视频量预期具有高重建误差。通过对每个测试输入卷产生的错误进行阈值处理，我们的系统将能够检测何时发生异常事件。
论文2：
在目前，无论在各个行只要和视频相关的，我们都可以看见H264相关的身影，H264作为目前使用最广泛的视频压缩标准，随着 x264/openh264以及ffmpeg等开源库的推出，大多数使用者无需再对H264的细节做过多的研究。但是，为了更好的进行开发，有必要了解一下H264的基本原理和一些常见的概念。那么H264有多厉害？

由于一般的算法要么不能检测时间特征，要么就是检测时间特征花费的时间空间过大，导致实时监测的目的不易达成，所以参考这两篇文章，综合其优缺点：论文1的优点在于能够检测时空特征，但是为了寻求速度，达到实时性的要求，舍弃了一些精度。论文2的优点在于能够运用了运动矢量来刻画视频的时间维度，但是缺点是因为运用运动矢量来刻画视频，导致视频的空间特征被忽略，虽其论文中在两个训练集上的训练结果不错，但是这具有片面性和不完整性。
基于以上两文的优缺点，本人提出了以下网络结构：双流网络结构

其中，时间自动编码器由两层ConvLSTM编码，两层ConvLSTM解码器组成；空间自动编码器由两层CNN编码，两层CNN解码器组成。
具体的CNN结构和ConvLSTM结构还要经过测试最终确定。

目前遇到的难题：运动矢量的提取，查找文献大都是用的H.264编码标准，用FFmpeg实现，但是…由于版本的不同，FFmpeg现在的版本已经将运动矢量的相关函数删除，现在考虑再多查找一下相关文献，看看怎么解决这个问题。
运动矢量示意图如下：

HNU-第一周（毕设总结一）
下周的任务：实现网络结构，初步调试