论文笔记--Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

Hello, 今天是论文笔记计划的第二天啦。

今天为大家介绍下这篇“重磅级”论文，目前是该方向SOTA的论文，并且从处理上来看，与之前大家不断改进的ST-GCN的那些论文来看，引入了一些新的视角，还是值得我们学习的。

（细心认真的读者借鉴我的论文笔记模版，摸索出一个属于你们最适宜的论文笔记模版。当我阅读一定量之后，我相信我的笔记模版侧重点也会开始发生变化，因为最适合自己的才是最好的。）

其实在慢慢做论文的过程中，就有一点发现，你想用什么或者改什么的时候，那些“点”往往不是从普通的论文笔记找到的，而是在经过自己长时间阅读论文后，提炼总结而成的的东西里，就有点类似于自己的论文点子????库的感觉哈哈哈。让我们一起等待时间和积累带给我们的变化吧！

本论文是CVPR2020的论文。
Paper：https://arxiv.org/pdf/2003.14111.pdf
Code：https://github.com/kenziyuliu/MS-G3D

一、论文题目关键词提取

Disentangling: 分解，看到这个词的时候就在想这个分解是分解人体的关节为几个部分吗？比如PB-GCN里面就是把人体的结构分为了5个部分。

Unifying: 统一，没看论文前大概感觉就像是分解然后又合并的感觉。或者是用了一个类似全局图的东西？

只凭借论文题目关键词，我们暂时解读到这里，保留着我们的疑问，然后将论文继续读下去。

读论文，就是要一步步自我提问、自我回答、自我假设，然后去文中验证自己的想法。比如，读到Introduction介绍前人工作的不足时，停下来思考自己会怎么做怎么处理，然后把每一篇精读的论文都这样做，不久之后会发现自己思维开阔许多。

二、研究背景

2018年AAAI提出ST-GCN之后，紧接着在2019年的CVPR会议上就出现了几篇改进的论文。其中引用数最多的还是2s-AGCN，也就是我们昨天介绍的那篇论文及其前一版本。本文也借鉴了其双流的思想，在joint信息的基础上融合了bone骨骼信息。

本文还关注到通过用骨架邻接矩阵的高阶多项式进行图卷积来提取关节的多尺度结构特征和长期相关性时，受到了偏加权的问题，无向图上循环行走的存在意味着边权重将偏向更近的节点而不是更远的节点。这就意味着，聚集的特征将主要由来自局部身体部位的关节支配，而忽略了距离较远的关节点。

在时间部分的处理上，借鉴了GRGCN论文的窗口思想，也提出了窗口的机制。

三、研究目标 & 内容

目标：
1、解决邻接矩阵高阶多项式的偏加权的问题。
2、解决1D卷积无法直接捕获跨时空的信息流而导致忽略了复杂的区域时空关节的相关性。

内容：
1、为了实现目标1，提出了一种新的多尺度聚合方案，该方案通过去除更远和更近邻域之间的冗余依赖关系来解决有偏加权问题，从而在多尺度聚合中解开它们的特征。这种更强大的多尺度算子，可以捕获关节之间的关系，而不考虑它们之间的距离。
2、为了实现目标2，提出了G3D，一种新的统一时空图卷积模块，直接建模关节跨时空依赖。G3D具体的是由窗口、跨时空的跳连接以及多尺度信息组成的。

四、本文贡献

提出了一种消除不同邻域节点特征之间冗余依赖关系的多尺度聚合方案，使得强大的多尺度聚合器能够有效地捕获人体骨骼上的全图联合关系。
提出了一个统一的时空图卷积算子(G3D)，它有助于跨时空的直接信息流进行有效的特征学习。
将解开的聚集方案与G3D相结合，提供了一个强大的特征提取器(MS-G3D)，具有跨空间和时间维度的多尺度感受野。时空特征的直接多尺度聚合进一步提升了模型性能。

五、研究方法

分解骨架的邻接矩阵：
论文笔记--Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
按照跳数（距离）来将一个邻接矩阵分解为多个矩阵，就可以消除不同邻域节点特征之间冗余依赖关系，以及高阶多项式导致的偏加权问题。

按照跳数分解邻接矩阵后，图卷积的公式：
论文笔记--Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
添加了跨时空的连接，这一步我当时理解了挺久的，主要是包含了多个跳数的矩阵同时存在在连续的窗口内，需要把矩阵的维度理解清楚。

加入窗口后的特征计算：
论文笔记--Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

结合多跳与窗口的特征计算：
论文笔记--Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
整体模型架构图：

可以看到，在MS-TCN的地方，也使用了多尺度的设计，加宽了时间的设计结构。

六、评价指标

本论文对比了参数量：（但其实作者巧妙的避开了计算复杂度，本文计算复杂度挺高的。）
论文笔记--Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
本文的效果也是目前的SOTA啦：