《Multi-Label Image Classification with Attention Mechanism and Graph Convolutional Networks》MM2019

《Multi-Label Image Classification with Attention Mechanism and Graph Convolutional Networks》MM2019

论文链接：https://dl.acm.org/doi/pdf/10.1145/3338533.3366589

解决的问题
作者认为单纯考虑labels之间的关系并结合图像全局信息是不准确的，应该不仅考虑labels之间的关系，同时将每个label和图像上其目标相对应区域之间的联系也考虑进来。
解决方法
本文提出一个新的框架，同时使用attention机制和GCN。Attention机制关注特定目标区域，增强图像区域和label之间的联系；利用label共现概率构建label之间的有向图，利用GCN从全局视角学习labels之间的关系，即为每个label学习一个分类器。
整体框架

Feature Extraction Net
使用ResNet-101作为特征提取网络，使I表示输入图像，对应标签为
其中C是数据集中所有标签的数目，如果图像标签是l，则其对应标签y^l = 1，否则为0。
特征提取过程记为（输出的feature map）：

Attention Mechanism Net
给定输入视觉特征（上述公式1获得）f_a，注意力模块可以生成label attention values：
其中blocks模块由ResNet的conv5.x相关的两个残差单元组成，C是整个label数目，最后Z应该包含C个attention map。
最后通过特征提取网络的输出和attention机制网络融合得到最终的特征：

其中α是权重因子。
GCN Classification Net

每层GCN非线性函数：
其中H^(l+1)表示被更新的节点表示，而H表示输入的节点表示；A是相应的相关矩阵；d是当前节点特征维度。f(., .)表示为：
其中A^~表示正则化后的相关矩阵。
本篇论文，其中相关矩阵它是通过在训练集中以条件概率建模获得的，使用词向量作为标签表示(与工作【1】一致)，将学习到的分类器应用到图像表达，scores表示为：
其中，同时f(.)指全局最大池化操作。
loss函数：
其中σ(·)是sigmoid函数。

实验结果

最新方法对比
attention模块可视化分析
整个框架实验可视化分析

结论
这篇论文与ML-GCN【1】非常相似，唯一的区别就是本文利用attention机制去关注每个label对应的特定目标区域，然后与GCN分类网络学习的label分类器结合，但是实验结果对比效果相较于ML-GCN提升不大，个人觉得创新性不是很大(纯属个人想法，有问题还请指出！!)

参考文献：
[1] Zhao-Min Chen, Xiu-Shen Wei, Peng Wang, and Yanwen Guo. 2019. Multi-LabelImage Recognition with Graph Convolutional Networks. InProceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 5177–5186

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode