论文阅读 seq2seq模型的copy机制

copy net 和 pointer softmax network都是在ACL 2016上提出的，目的是为了解决OOV的问题，本篇主要是想借此总结一下copy机制的原理。

论文阅读

论文阅读

Incorporating Copying Mechanism in Sequence-to-Sequence Learning

Jiatao Gu, Zhengdong Lu
The University of Hong Kong & Huawei Noah’s Ark Lab
ACL 2016

这篇提出了copynet的思路，同时结合了generative和copy两种方式，对OOV词采用直接copy的方式。attention中包含了两个部分，第一个部分是词表，用one hot向量表示的，第二个部分是encoder的隐藏状态，即输入的句子，之所以用隐藏状态是因为其包含有位置信息，这个对生成很重要。建模是通过两者的叠加，例子中就是Prob(“Jebara”) = Prob(“Jebara”, g) + Prob(“Jebara”, c)。

论文阅读 seq2seq模型的copy机制

p (y_{t} | s_{t}, y_{t - 1}, c_{t}, M) = p (y_{t}, c | s_{t}, y_{t - 1}, c_{t}, M) + p (y_{t}, g | s_{t}, y_{t - 1}, c_{t}, M)

M是输入隐藏层状态的集合， $c_{t}$ 是attention score， $s_{t}$ 是输出的隐藏状态，g代表生成，c代表复制。

生成还是复制基于概率最大来选择，加了一个简单的限制规则，如果 $y_{t}$ 在输入中没出现，那么肯定不会是copy， $p (y_{t}, c | *) = 0$ ；如果 $y_{t}$ 在只输入中出现，而词表中没有，那么肯定是copy， $p (y_{t}, g | *) = 0$ 。

为了复制较长短语，作者改变了 $y_{t - 1}$ 的表达式，加了一项selected read。 $y_{t - 1}$ 的表达式由两项拼接而成，第一项是词的embedding，第二项叫做selective read，其目的是为了拷贝较长的短语。理解的话很直观，如果前一个词在输入中出现了，那么有一个权重的累加，否则为零。

本文在summeraize上基本已经解决了OOV问题，在word level和char level都做了测试，word level表现更好。copynet缺点在于只能原封不动地复制，对于NMT和QA还是下一篇介绍的pointer softmax更常用。

Pointing Unknown Word

Caglar Gulcehre, Yoshua Bengio, ACL 2016

本篇提出了pointer softmax的机制，为了解决copy or generate 和 where to copy两个问题。也称为pointer-generator network。

copy or generate
用一个参数 $z_{t}$ 来决定是point，copy还是generate，用一个多层感知机来预测。输入由当前时刻attention得出的语义向量 $c_{t}$ 和前一时刻decoder的隐藏层状态 $s_{t - 1}$ 以及输出 $y_{t - 1}$ 拼接构成。

其实这个多层感知机的输入和NMT中decoder预测下一状态的输入是一模一样的，只是一个是学习对应的位置，一个是学习预测每个词的概率。
where to point
在attention softmax的基础上，额外用了一个location softmax来解决where to point的问题。
目标是max $p (l_{t} | z_{t} = 0, (y, z)_{< t}, x)$

从公式看反而更直观一些：
目标可以表示为 argmax $p_{θ} (y, z | x) = \prod_{t = 1}^{T_{Y}} p_{θ} (y_{t}, z_{t} | y_{< t}, z_{< t}, x)$

p_{θ} (y_{t}, z_{t} | y_{< t}, z_{< t}, x) = p_{θ} (ω_{t}, z_{t} | y_{< t}, z_{< t}, x) \times p_{θ} (l_{t}, z_{t} | y_{< t}, z_{< t}, x)

p_{θ} (ω_{t}, z_{t} | y_{< t}, z_{< t}, x) = p_{θ} (ω_{t} | z_{t} = 1, y_{< t}, z_{< t}, x) \times p_{θ} (z_{t} = 1 | y_{< t}, z_{< t}, x)

p_{θ} (l_{t}, z_{t} | y_{< t}, z_{< t}, x) = p_{θ} (l_{t} | z_{t} = 0, y_{< t}, z_{< t}, x) \times p_{θ} (z_{t} = 0 | y_{< t}, z_{< t}, x)

不加pointer softmax的seq2seq其实就是最大化 $ω_{t}$ 的概率来训练attention权重，这里除了考虑attention多了一个 $l_{t}$ 的概率，指向对应输入中词的位置，用来学习位置的信息。

switch network目的是得到 $z_{t}$ ，通过训练学习 $z_{t}$ 的分布 $p_{θ} (z_{t} | y_{< t}, z_{< t}, x)$

论文阅读 seq2seq模型的copy机制

Pointer Network

Oriol Vinyals, Meire Fortunato, Navdeep Jaitly, Google Brain, 2015

顺带再提提这篇15年放在arkiv上的pointer network，思路比较简单，就是decoder不预测输出是什么，而是预测输出应该对应输入哪个词。pointer softmax的位置参数 $l_{t}$ 就是借鉴了这个思想。

论文阅读 seq2seq模型的copy机制