在 keras 中的一组文档上应用共享嵌入层答案

【问题标题】：Apply a shared Embedding layer on a set of documents in keras在 keras 中的一组文档上应用共享嵌入层
【发布时间】：2017-02-25 21:15:16
【问题描述】：

我正在尝试创建一个模型，在该模型中，我想在给定特定查询的情况下预测特定文档集的顺序。我的想法基本上是为查询和文档使用共享嵌入层，然后使用每个文档和查询之间的余弦相似度（使用自定义 lambda）合并两个“分支”。然后损失函数将计算预期位置和预测相似度之间的差异。

我的问题是：有没有办法为一组文本特征创建嵌入（假设它们具有相同的长度）？

我可以通过应用 Embedding + Convolution1D + GlobalMaxPooling1D 将我的查询正确地转换为“类似 doc2vec 的嵌入”，但是我在文档集上使用相同的策略没有运气（并且重塑 + 2D 卷积并没有真正使考虑到我正在处理文本数据，这对我来说是有意义的）。

请注意，我的一个限制是我需要为我的查询和文档集使用相同的嵌入层（我正在使用 Keras 的功能 api 来执行此操作）。

[编辑，添加示例代码]

Q = Input(shape=(5, ))    # each query is made of 5 words
T = Input(shape=(50, 50)) # each search result is made of 50 words and 50 docs

emb = Embedding(
    max_val,
    embedding_dims,
    dropout=embedding_dropout
)

left = emb(Q)
left = Convolution1D(nb_filter=5,
                     filter_length=5,
                     border_mode='valid',
                     activation='relu',
                     subsample_length=1)(left)
left = GlobalMaxPooling1D()(left)

print(left)
right = emb(T)   # <-- this is my problem, I don't really know what to do/apply here

def merger(vests):
    x, y = vests
    x = K.l2_normalize(x, axis=0)             # Normalize rows
    y = K.l2_normalize(y, axis=-1)            # Normalize the vector
    return tf.matmul(x, y)  # obviously throws an error because of mismatching matrix ranks

def cos_dist_output_shape(shapes):
    shape1, shape2 = shapes
    return (50, 1)

merger_f = Lambda(merger)

predictions = merge([left, right], output_shape=cos_dist_output_shape, mode=merger_f)

model = Model(input=[Q, T], output=predictions)

def custom_objective(y_true, y_pred):
    ordered_output = tf.cast(tf.nn.top_k(y_pred)[1], tf.float32)  # returns the indices of the top values
    return K.mean(K.square(ordered_output - y_true), axis=-1)

model.compile(optimizer='adam', loss=custom_objective)

[解决方案]感谢 Nassim Ben，像这样使用 TimeDistributed 将图层循环应用于图层的所有维度，如下所示：

right = TimeDistributed(emb)(T)
right = TimeDistributed(Convolution1D(nb_filter=5,
                        filter_length=5,
                        border_mode='valid',
                        activation='relu',
                        subsample_length=1)(right)
right = TimeDistributed(GlobalMaxPooling1D())(right)

【问题讨论】：

你有一些代码要分享吗？到目前为止，您已经尝试过什么：)
当然是的 :) 很抱歉没有从一开始就添加它@NassimBen

标签： python neural-network keras embedding

【解决方案1】：

好的。如果我正确理解这种情况，您有 50 个要嵌入的长度为 50 的文本 sn-ps。

在进行词嵌入之后，您会发现自己的张量 T 的形状为 (50,50,emb_size)。我要做的是在 TimeDistributed 包装器中使用 LSTM 层。在emb(T) 之后添加这些行：

right = TimeDistributed(LSTM(5))(right)

这将对 50 个文档中的每一个应用相同的 LSTM，并在每个文档处理结束时输出长度为 5 的最终状态。这一步之后的形状是（50,5）。您已将每个文档嵌入到长度为 5 的向量中。 TimeDistributed 的优点是应用于每个文档的 LSTM 将共享相同的权重，因此您的文档将以相同的方式“处理”。你可以找到关于 LSTM here 和关于 TimeDistributed here 的文档。

我希望这会有所帮助。

【讨论】：

谢谢，非常感谢。我在这里唯一的问题是试图理解为什么在这种情况下我需要一个 LSTM，它确实让我感到困惑。我会试试的：）谢谢你的帮助
lstm 将向量序列作为输入（2D 数组），并通过一个接一个地“读取”向量来对它们进行编码。每次输入一个向量并输出最后一个状态时，它都会更新一个隐藏状态。因此，LSTM 是一种对文本进行编码的“自然”方式，因为文本是一系列词向量（词嵌入）。这有意义吗？
一般来说是有道理的，我的结果中没有很多结构，所以我也会测试时间分布的 conv1d。顺便说一句，您发布的行在 keras/layers/recurrent.py 的第 702 行（self.input_dim = input_shape[2] 在def build..）的第 702 行引发了一个错误IndexError: tuple index out of range，并且添加 input_shape 并不能解决它
nvm，我还需要“timedistribute”嵌入层，这样就解决了
哦，是的。抱歉，我没有看到那个问题。另一种可能性是将您的输入重塑为 (50*50,) 张量，嵌入这些单词，这将输出一个 (50*50,emb_size) 张量，您再次将其重塑为 (50,50,emb_size)。两种方法都很好:) 那么问题解决了吗？