背 景:

对现有字幕进行编辑更容易些,编辑字幕不需要关注现有信息,使它只需要专注于固定细节(例 如重复的单词)就可以。

创新点:

本文提出了一种基于现有字幕迭代自适应细化的图像字幕处理方法。
我们的模型由两个子模块组成:

  1. EditNet:具有自适应复制机制(Copy-LSTM)和选择性复制存储器注意机制(SCMA)的语言模块。一个编辑 现有图像标题的框架,由一个带有选择性复制存储器注意(SCMA)机制的复制LSTM组成。

  2. DCNet:一种基于LSTM的去噪自动编码器,它学习去噪以前的标题。 我们用一个新的目标函数(隐藏状态之 间的MSE)对DCNET进行优化,发现它是一种简单有效的改进方法我们解码器的性能。
    这些组件使我们的模型能够直接从现有修改现有的标题。
    论文笔记:Show, Edit and Tell : A Framework for Editing Image Captions
    我们的模型如何编辑现有的图像标题?

    在每个解码步骤中,都会生成注意权重,这些权重对应于现有标题中每个单词的重要性。采用选择性复制记忆注意(SCMA)机制,我们选择概率最高的单词,并直接将其相应的LSTM内存状态复制到我们的语言Copy-LSTM中。也就是说,我们不是学习直接从输入标题中复制单词,而是学习是否复制与这些单词对应的隐藏状态。
    论文笔记:Show, Edit and Tell : A Framework for Editing Image Captions
    EditNet及其解码器(中间)表示,现有的标题首先使用单向LSTM编码,其中每个LSTM单元输出一个单词表示(h代表隐藏状态,c代表内存状态)。隐藏状态用于计算注意力权重,然后将其与内存状态一起传递给SCMA机制。SCMA选择单个内存状态并直接将其复制到Copy-LSTM中。
    文本注意向量被门控删除不正确的词,然后作为输入传递到copy-LSTM以及视觉注意向量, EditNet配备了一个基于LSTM的降噪自动编码器,将现有字幕作为输入,并将其编码为压缩后的表示形式,然后将压缩的表示形式解码为其预期的输出。

结果展示

论文笔记:Show, Edit and Tell : A Framework for Editing Image Captions

相关文章:

  • 2021-10-27
  • 2021-04-18
  • 2021-06-29
  • 2021-07-01
  • 2021-09-18
  • 2021-09-02
  • 2021-06-23
  • 2021-10-17
猜你喜欢
  • 2021-06-17
  • 2021-06-15
  • 2022-12-23
  • 2021-08-21
  • 2021-09-23
  • 2021-04-12
  • 2022-12-23
相关资源
相似解决方案