《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记

这篇论文收录在2017年CVPR上，跟2015年发表在CVPR上的论文《From Captions to Visual Concepts and Back》都是微软研究院创作的。跟《From Captions to Visual Concepts and Back》方法有点类似，不过将其方法改进，将image caption扩展到了novel objects上。

一、introduction

这一部分点出了论文提出来的一种新框架LSTM-C，全称是 Long Short-Term Memory with Copying Mechanism 。该机制主要工作原理，给定一张图片，利用CNN提取特征并作为语言模型LSTM的初始时刻的输入，另一方面，目标检测网络识别出图片中的物体，接下来复制机制考虑怎么将识别出来的物体放到输出中。

二、Related Work

提到image caption、novel object caption

三、Image caption with copying mechanism

《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记

上图(b)展示了LSTM-C结构，(a)中《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记代表paired image-sentences中出现的词汇，代表unpaired objects组成的词汇

3.1 Notaion

image特征《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记，textual sentence，其中每一个,输出还可以表示成的矩阵，理解成个的列向量构成。

3.2 Sequence Modeling in Image Caption

这一部分跟show ant tell模型提出的language model一样，是一个典型的不带attention机制的Sequence-to-sequence模型，论文用《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记表示下一时刻单词的出现概率，计算公式为

《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记

3.3 Copying Mechanism

Copying Mechanism主要用来解决out-of-vocabulary的问题。copying mechanism作用是将检测到的objects对应的word复制到输出sentence中，类似于人类的rote memorization，简单点说就是记住输入的sentence部分单词，然后直接放入输出sentence中。

计算公式为

《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记

其中，《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记是单词对应的物体在image中检测到概率的score，换句话说，检测到object概率越大，那么对应的score越大，对应单词出现概率就越大，跟一样，也是计算单词跟LSTM隐状态《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记的相似程度。不过具体的变换矩阵不一样。

3.4 LSTM with Copying Mechanism

根据3.2、3.3提到的方法，输出单词的计算公式有两个，根据其vocabulary集合属性，归纳出所有单词的计算公式，

《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记

其中，这里给出的是最后的softmax归一化的形式。重点关注既在《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记又在中的单词，它们的计算公式结合了3.2、3.3的公式，其中，是平衡参数。

根据《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记计算公式，得到对数似然损失函数，计算公式为

《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记

论文最终得到一个优化问题

《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记

这里有一个疑问，按照论文的说法，训练LSTM-C的时候采用的是paired image-sentence数据，那么所有的单词就不存在只属于《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》阅读笔记的情况，也就是说3.3提到的公式在训练整个LSTM-C的时候完全没有用，只在测试的时候起作用？

相关文章：

2021-06-04
2021-11-20
2021-06-29
2021-04-06
2021-08-07
2021-06-19
2021-12-31
2022-12-23

猜你喜欢

2021-06-10
2021-08-11
2021-07-13
2021-05-02
2021-09-18
2021-04-25

相关资源

下载 2021-06-07
下载 2023-03-18
下载 2022-12-30

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode