需要实现与连体网络非常相似的深度学习架构答案

【问题标题】：Need to implement Deep Learning architecture quite similar to Siamese Network需要实现与连体网络非常相似的深度学习架构
【发布时间】：2021-10-06 13:15:21
【问题描述】：

我必须实现这个网络：

类似于具有对比损失的孪生网络。我的问题是S1/F1。论文这样说：

"F1 和 S1 是我们用来分别学习面部和语音模式的单位归一化嵌入的神经网络。在图 1 中，我们在训练和测试例程。它们由 2D 卷积层（紫色）、最大池化层（黄色）和全连接层（绿色）组成。所有层之间使用 ReLU 非线性。最后一层是单位归一化层（蓝色）。对于面部和语音模态，F1 和 S1 返回 250 维单位归一化嵌入”。

我的问题是：

如何将二维卷积层（紫色）应用于形状为(number of videos, number of frames, features) 的输入？
最后一层是什么？批量规范？ F.normalize?

【问题讨论】：

标签： python deep-learning neural-network pytorch siamese-network

【解决方案1】：

我会在不过多赘述的情况下回答你的两个问题：

如果您使用 CNN，您的输入中很可能包含空间信息，即您的输入是二维多通道张量 (*, channels, height, width)，而不是特征向量 (*, features)。如果不保留二维，则根本无法对输入应用卷积（至少是 2D 卷积）。
最后一层被描述为“单位标准化”层。这仅仅是使向量的范数单位（等于1）的操作。您可以通过将所述向量除以其范数来做到这一点。

【讨论】：

非常感谢！