【发布时间】:2017-02-22 02:10:28
【问题描述】:
这是一个假设性问题。
假设
- 我正在处理 2 类语义分割任务
- 我的基本事实是二进制掩码
- 批量大小为1
- 在我的网络中的任意点有一个名为
'conv_5'的卷积层,其特征图大小为 90 x 45 x 512。
假设我还决定(在训练期间)将地面实况掩码连接到'conv_5'。这将产生一个新的顶部,我们可以称之为'concat_1',它将是一个 90 x 45 x 513 维度的特征图。
假设网络的其余部分遵循正常模式,例如更多的卷积层、全连接和 softmax 损失。
我的问题是,全连接层能否学会将前 512 个特征通道的权重非常低,而将最后一个特征通道(我们知道这是一个完美的基本事实)的权重非常高? p>
如果这是真的,那么如果特征维度是 1,000,000 个通道并且我将最后一个通道添加为完美的基本事实,那么原则上是否正确,它仍然会学会有效地忽略所有先前的 1,000,000 个特征通道?
我的直觉是,如果传入了一个非常好的特征通道,那么网络应该能够比其他网络更多地学习利用这个通道。我还想认为这与频道数量无关。
(在实践中,我有一个场景,我将一个近乎完美的基本事实作为第 513 个特征图传递,但它似乎根本没有影响。然后当我检查所有 513 个特征通道的权重大小时,所有渠道的幅度大致相同。这让我相信“近乎完美的面具”只被利用了大约 1/513 的潜力。这就是促使我提出这个问题的原因。)
【问题讨论】:
标签: machine-learning neural-network deep-learning caffe gradient-descent