论文笔记：Show, Edit and Tell : A Framework for Editing Image Captions

背景：

对现有字幕进行编辑更容易些，编辑字幕不需要关注现有信息，使它只需要专注于固定细节（例如重复的单词）就可以。

创新点：

本文提出了一种基于现有字幕迭代自适应细化的图像字幕处理方法。
我们的模型由两个子模块组成：

EditNet：具有自适应复制机制(Copy-LSTM)和选择性复制存储器注意机制(SCMA)的语言模块。一个编辑现有图像标题的框架，由一个带有选择性复制存储器注意(SCMA)机制的复制LSTM组成。
DCNet：一种基于LSTM的去噪自动编码器,它学习去噪以前的标题。我们用一个新的目标函数(隐藏状态之间的MSE)对DCNET进行优化，发现它是一种简单有效的改进方法我们解码器的性能。
这些组件使我们的模型能够直接从现有修改现有的标题。

我们的模型如何编辑现有的图像标题？

在每个解码步骤中，都会生成注意权重，这些权重对应于现有标题中每个单词的重要性。采用选择性复制记忆注意(SCMA)机制，我们选择概率最高的单词，并直接将其相应的LSTM内存状态复制到我们的语言Copy-LSTM中。也就是说，我们不是学习直接从输入标题中复制单词，而是学习是否复制与这些单词对应的隐藏状态。

EditNet及其解码器（中间）表示，现有的标题首先使用单向LSTM编码，其中每个LSTM单元输出一个单词表示（h代表隐藏状态，c代表内存状态）。隐藏状态用于计算注意力权重，然后将其与内存状态一起传递给SCMA机制。SCMA选择单个内存状态并直接将其复制到Copy-LSTM中。
文本注意向量被门控删除不正确的词，然后作为输入传递到copy-LSTM以及视觉注意向量， EditNet配备了一个基于LSTM的降噪自动编码器，将现有字幕作为输入，并将其编码为压缩后的表示形式，然后将压缩的表示形式解码为其预期的输出。

结果展示

论文笔记：Show, Edit and Tell : A Framework for Editing Image Captions

背 景：

创新点：

结果展示

背景：