【发布时间】:2021-10-06 13:15:21
【问题描述】:
我必须实现这个网络:
类似于具有对比损失的孪生网络。我的问题是S1/F1。论文这样说:
"
F1和S1是我们用来分别学习面部和语音模式的单位归一化嵌入的神经网络。在图 1 中,我们在训练和测试例程。它们由 2D 卷积层(紫色)、最大池化层(黄色)和全连接层(绿色)组成。所有层之间使用 ReLU 非线性。最后一层是单位归一化层(蓝色)。对于面部和语音模态,F1和S1返回 250 维单位归一化嵌入”。
我的问题是:
- 如何将二维卷积层(紫色)应用于形状为
(number of videos, number of frames, features)的输入? - 最后一层是什么?批量规范?
F.normalize?
【问题讨论】:
标签: python deep-learning neural-network pytorch siamese-network