论文浏览(26) Context-Aware RCNN: A Baseline for Action Detection in Videos

矛盾的现状
- 从经验上看，bbox较大的样本，行为检测的结果更好。
- 视频模型需要采样帧作为输入，这样才能提高行为识别的精度。
- 为了显存够用，帧的尺寸需要比较小。但ROI又希望帧尺寸稍微大一些。
Spatio-Temporal Action Detection 常用解决方案中的 ROI 结构
- ROI结构对于图像物体检测来说是非常合适的。
- 但在Action Detection中，行为类别往往与bbox周边的信息有关。

对比了 roi 与 crop+resize，明显后者更好。
判断bbox大小对最终结果的影响。
输入图像尺寸对结果的影响
判断图像中人物数量对最终结果的影响。
比较扩大bbox后（按比例），对结果的影响。带*的是roi pooling
从运行时间看
- 使用之前的roi pooling预测所有ava val数据耗时4548秒。
- 使用crop+resize这个结构，使用时间为7500秒。
- 时间增加了1.65倍。
与SOTA对比
- 我记得之前AlphAction就已经达到30%以上了，这个图已经过时了。

我就喜欢这类文档，虽然创新性一般，但实验很多，省得自己尝试了。
本菜鸡还没看过LFB，所以本文结果中只是把任务的feature添加到LFB中，那同一张图有多个人，不是就想LFB中添加多个数据了？我还以为是每张图片只添加一次……具体的还要看看LFB论文。明天就看。