多头注意力层 - Keras 中的包装多头层是什么？答案

【问题标题】：Multi-Head attention layers - what is a warpper multi-head layer in Keras?多头注意力层 - Keras 中的包装多头层是什么？
【发布时间】：2021-02-08 11:06:42
【问题描述】：

我是注意力机制的新手，我想通过做一些实际的例子来进一步了解它。我在这个网站Pypi keras multi-head 中发现了一个用于多头注意力的 Keras 实现。我在 Keras 中找到了两种不同的实现方式。

一种方法是使用多头注意力作为带有 LSTM 或 CNN 的 keras 包装层。这是在 Keras 中使用 LSTM 实现多头作为包装层的 sn-p。本例取自本网站keras multi-head"

import keras
from keras_multi_head import MultiHead

model = keras.models.Sequential()
model.add(keras.layers.Embedding(input_dim=100, output_dim=20, name='Embedding'))
model.add(MultiHead(keras.layers.LSTM(units=64), layer_num=3, name='Multi-LSTMs'))
model.add(keras.layers.Flatten(name='Flatten'))
model.add(keras.layers.Dense(units=4, activation='softmax', name='Dense'))
model.build()
model.summary()

另一种方式是单独作为独立层使用。这是多头作为独立层的第二个实现的sn-p，同样取自keras multi-head"

import keras
from keras_multi_head import MultiHeadAttention

input_layer = keras.layers.Input( shape=(2, 3), name='Input',)
att_layer = MultiHeadAttention( head_num=3, name='Multi-Head',)(input_layer)
model = keras.models.Model(inputs=input_layer, outputs=att_layer)
model.compile( optimizer='adam', loss='mse', metrics={},)

我一直在试图找到一些解释这一点的文件，但我还没有找到。

更新：

我发现第二个实现（MultiHeadAttention）更像是 Transformer 论文“Attention All You Need”。但是，我仍然在努力理解第一个实现，即包装层。

第一个（作为包装层）是否会将多头的输出与 LSTM 结合起来？

我想知道是否有人可以解释他们背后的想法，尤其是包装层。

【问题讨论】：

你试试这个tensorflow.org/api_docs/python/tf/keras/layers/…
没有。我没试过。

标签： tensorflow keras deep-learning transformer attention-model

【解决方案1】：

我理解你的困惑。根据我的经验，Multihead (this wrapper) 所做的就是复制（或并行化）层以形成一种多通道架构，并且每个通道都可用于从输入中提取不同的特征。

例如，每个通道可以有不同的配置，稍后将其连接起来进行推断。因此，MultiHead 可用于包装传统架构，形成 multihead-CNN、multihead-LSTM 等。

注意注意层是不同的。您可以堆叠注意力层以形成新的架构。您还可以并行化注意力层（MultiHeadAttention）并如上所述配置每一层。注意层的不同实现参见here。

【讨论】：

不知道pytorch有没有类似的资源？与 multihead-lstm 的相同示例...