【发布时间】:2017-06-15 02:12:00
【问题描述】:
在卷积神经网络模型的背景下,我曾经听到过这样一句话:
卷积的一个理想特性是它们是 平移等变;以及空间池化的引入 会破坏翻译等价的属性。
这句话是什么意思,为什么?
【问题讨论】:
标签: math machine-learning tensorflow computer-vision deep-learning
在卷积神经网络模型的背景下,我曾经听到过这样一句话:
卷积的一个理想特性是它们是 平移等变;以及空间池化的引入 会破坏翻译等价的属性。
这句话是什么意思,为什么?
【问题讨论】:
标签: math machine-learning tensorflow computer-vision deep-learning
很可能您是从Bengio's book 那里听到的。我会尽量给你我的解释。
粗略地说,如果f(g(x)) = g(f(x)),两个变换是等变的。在您的卷积和翻译的情况下,意味着如果您 convolve(translate(x)) 它与您 translate(convolve(x)) 相同。这是理想的,因为如果您的卷积会在图像中找到一只猫的眼睛,那么如果您移动图像,它就会找到那只眼睛。
您可以自己看到这一点(我只使用 1d conv 是因为它很容易计算)。让v = [4, 1, 3, 2, 3, 2, 9, 1] 与k = [5, 1, 2] 进行卷积。结果将是[27, 12, 23, 17, 35, 21]
现在让我们通过在 v 后面加上 v' = [8] + v 来改变它。与k 卷积你会得到[46, 27, 12, 23, 17, 35, 21]。对你来说,结果只是之前的结果,前面加上了一些新的东西。
现在是关于空间池的部分。让我们对第一个结果和第二个结果进行大小为 3 的最大池化。在第一种情况下,您将获得[27, 35],在第二种情况下,您将获得[46, 35, 21]。如您所见,27 不知何故消失了(结果已损坏)。如果您采用平均池化,它将更加损坏。
附:最大/最小池是所有池中最平移不变的(如果您可以这么说,如果您比较未损坏元素的数量)。
【讨论】:
关于翻译 equivariant 和 invariant 术语的说明。这些术语是不同的。
等变翻译意味着输入特征的翻译导致输出的等价翻译。当我们需要找到图案矩形时,这是可取的。
不变的翻译意味着输入的翻译根本不会改变输出。
实现平移不变性非常重要。这实际上意味着在学习了图片左下角的特定模式后,我们的卷积网络可以在任何地方(也在右上角)识别该模式。
正如我们所知,只有中间没有卷积层的密集连接网络无法实现平移不变性。
我们需要引入卷积层来为深度网络带来泛化能力,并用更少的训练样本学习表示。
【讨论】: