视频分析学习笔记

前言

锲合音视频分析婴幼儿哭声，在完成这个工作后入坑视频分析，通过诸如视频加音频的多模态方法来做理解视频的正好。经过半年的学习，现在对深度学习的看法：深度学习是一个函数工具，这个工具利用计算机的计算能力前行从数据中提取出来一个符合事物规律的你和函数，但是一些数学方面的人希望从公式上去解出来这个函数，解释深度学习的规律，这也就是计算机和数学对于同意问题的冲突点，感觉他们对这种暴力解决的方法有很大意见。以前我们的机器学习还需要特征工程，但是深度学习大部分不需要做这些，只要有数据就行。这样的话我们可以把深度学习放在许多应用领域，拿到数据之后利用深度学习的方法去做这个规律函数（最近看到矿业方向的一个教授三年读完硕博，用dl疯狂发文章被人肉了，好惨）。最近做音视频的时候发现这个方向挺有意思，视频也是我入学之前就想做的东西。这里我学习一下参考文章，为将来有可能的学习打个基础。逃课时提前将书包扔到墙外有利于下定决心翻墙。

参考文章

https://www.zhihu.com/search?type=content&q=%E8%A7%86%E9%A2%91%E5%88%86%E6%9E%90%E7%A0%94%E7%A9%B6%E7%8E%B0%E7%8A%B6

https://github.com/HuaizhengZhang/Awsome-Deep-Learning-for-Video-Analysis

这份博客主要就是学习这两个文章。

视频理解近期研究进展

常用数据集

视频分析学习笔记
视频分类主要有两种数据集，剪辑过(trimmed)的视频和未经剪辑的视频。剪辑的视频中包含一段明确的动作，时间较短标记唯一，而未剪辑的视频还包含了很多无用信息。如果直接对未剪辑的视频进行处理是未来的一大研究方向。
相比图像分类，视频的类别/动作数目要少很多，而且常常有一定歧义，例如take和put要和后面名词结合才会有具体含义(如take medication, take shoes, take off shoes)。Sigurdsson等人发现人类对这些动词也容易感到混淆。另外，视频中动作开始和结束的时间也不够明确。

经典方法

DT和iDT
逐帧处理融合
ConvLSTM
3D卷积
Two-stream

其他视频理解任务

时序动作定位(temporal action localization) 在一段未剪辑的视频中找到动作开始和结束的时间，并对动作进行分类。
异常检测(anomaly detection) 通常用于判断监控视频中出现的异常事件。
视频摘要与视频浓缩(video summarization and video synopsis) 视频摘要是从原始视频中提取有代表性的关键帧，而视频浓缩将多帧视频合并成一帧。
"看视频说话"(video captioning) 基本思路和看图说话一致，用编码网络提取视频信息，用解码网络生成文字描述。
第一视角视频(first-person video) 研究第一视角视频可以用于自动驾驶、机器人导航等。
视频生成(next frame generation) 有工作利用生成式模型对视频进行生成。
目标跟踪(object tracking) 给定视频第一帧中目标的位置(以包围盒的形式)，我们需要预测其他帧中该目标的包围盒。目标跟踪类似于目标检测，但目标跟踪的难点在于事先不知道要跟踪的目标具体是什么，因此无法事先收集足够的训练数据以训练一个专门的检测器。
视频分析学习笔记
PS;回顾我当初选的方向，突然发现我只关注到了边缘计算，但是忽略了视觉感知，有意思。

github上视频理解方向总结

视频分析学习笔记