团队介绍

作者:Huogen Wang Pichao Wang Zhanjie Song Wanqing Li

论文发表于ICCVW2017上,Pichao Wang是澳大利亚University of Wollongong大学的Phd,去年就参加[email protected]竞赛了,取得了挺不错的成绩。本文不是今年他们最好成绩对应的论文,感觉像是调参的副产品。

论文总结

本来是奔着segmentation去看的,没想到如此简单,本文的实验部分也不充分,只给出了最终的结果,没有中间模块的对比实验,差评。论文像是个技术报告,最大特点就是用了多个提取特征的方法,以及不同的神经网络,最后把各个网络的结果融合在一起。(这好像是打比赛常用的技巧)另外文章的introduction和related work写的不错。

论文framework

Large-scale Multimodal Gesture Segmentation and Recognition based on Convolutional Neural Networks
- 图1: 论文的总体框架

  • temporal segmentation: 利用RGB和Depth图片分别微调训练VGG16网络(在ImageNet预训练),进行二分类(动作和过渡)。在实际操作中,将标注的分界点周围的8帧作为过渡帧,其余为动作帧。这里面明显动作帧较多,存在数据不平衡问题,不知道他们是不是对动作帧进行下抽样,减少动作帧数使其和过渡帧一致。
  • gesture recognition: 分为对RGB和depth分别处理。
    • RGB: 利用之前的方法(Frequency-tuned salient region detection, CVPR2009)提取RGB的显著性区域,论文中说这样能消除背景的干扰。原始的RGB和显著性区域的RGB区域分别训练自己的C3D-CLSTM-SSP网络。如下图所示
      Large-scale Multimodal Gesture Segmentation and Recognition based on Convolutional Neural Networks
    • depth, 利用rank pooling将一个序列的图片压缩为一张包含运动信息的图片(Dynamic image networks for action recognition,CVPR2016)DDIs, 和稍加一个变化的DMDI, 说是保留了更多的运动信息,之后分为微调训练ResNet-50

实验

实验只有一个最终结果,我实际想看到网络四个分支分别起到多大作用,另外也没有定量分析temporal segmentation的结果。最终实验结果如下:
Large-scale Multimodal Gesture Segmentation and Recognition based on Convolutional Neural Networks

总结

该论文分别使用了C3D, CLSTM, VGG16, ResNet50等经典网络,平均融合各个方法,得到最终实验结果。
得到的一点点启发:

  1. 利用Frequency-tuned salient region detection可得到RGB图片的显著性区域,可以减少一定的噪声干扰
  2. 利用rank pooling将depth的序列图片压缩为一张运动图,转化为2D-CNN的图片分类问题。

补充

如果是面向应用的研究,例如手势识别,如果能给出在特定计算平台的运算速度就更好了。这样能看算法是否有实际应用价值。

Reference

[1]:Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Computer vision and pattern recognition, 2009. cvpr 2009. ieee conference on. IEEE, 2009: 1597-1604.
[2]:Bilen H, Fernando B, Gavves E, et al. Dynamic image networks for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3034-3042.

相关文章:

  • 2021-06-09
  • 2021-09-06
  • 2021-07-27
  • 2021-12-14
猜你喜欢
  • 2021-04-09
  • 2021-09-08
  • 2022-01-20
  • 2022-01-08
  • 2021-04-03
  • 2021-10-28
  • 2021-05-30
相关资源
相似解决方案