【转】自编码算法与稀疏性（AutoEncoder and Sparsity）

目前为止，我们已经讨论了神经网络在有监督学习中的应用。在有监督学习中，训练样本时有类别标签的。现在假设我们只有一个没带类别标签的训练样本集合 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ ，其中 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 。自编码神经网络是一种无监督学习算法，它使用了反向传播算法，并让目标值等于输入值，比如 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 。下图是一个自编码神经网络的示例。

自编码神经网络尝试学习一个 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 的函数。换句话说，它尝试逼近一个恒等函数，从而使得 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 接近于输入 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 。恒等函数虽然看上去不太有学习的意义，但是当我们为自编码神经网络加入某些限制，比如限定隐藏神经元的数量，我们就可以从输入数据中发现一些有趣的结构。举例来说，假设某个自编码神经网络的输入 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 是一张 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 图像（共100个像素）的像素灰度值，于是 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ ，其隐藏层 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 中有50个隐藏神经元。注意，输出也是100维的 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 。由于只有50个隐藏神经元，我们迫使自编码神经网络去学习输入数据的压缩表示，也就是说，它必须从50维的隐藏神经元激活度向量 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 中重构出100维的像素灰度值输入 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 。如果网络的输入数据是完全随机的，比如每一个输入 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 都是一个跟其它特征完全无关的独立同分布高斯随机变量，那么这一压缩表示将会非常难学习。但是如果输入数据中隐含着一些特定的结构，比如某些输入特征是彼此相关的，那么这一算法就可以发现输入数据中的这些相关性。事实上，这一简单的自编码神经网络通常可以学习出一个跟主元分析（PCA）结果非常相似的输入数据的低维表示。

我们刚才的论述是基于隐藏神经元数量较小的假设。但是即使隐藏神经元的数量较大（可能比输入像素的个数还要多），我们仍然通过给自编码神经网络施加一些其他的限制条件来发现输入数据中的结构。具体来说，如果我们给隐藏神经元加入稀疏性限制，那么自编码神经网络即使在隐藏神经元数量较多的情况下仍然可以发现输入数据中一些有趣的结构。

稀疏性可以被简单地解释如下。如果当神经元的输出接近于1的时候我们认为它被激活，而输出接近于0的时候认为它被抑制，那么使得神经元大部分的时间都是被抑制的限制则被称作稀疏性限制。这里我们假设的神经元的激活函数是sigmoid函数。如果你使用tanh作为激活函数的话，当神经元输出为-1的时候，我们认为神经元是被抑制的。

注意到 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 表示隐藏神经元 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 的激活度，但是这一表示方法中并未明确指出哪一个输入 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 带来了这一激活度。所以我们将使用 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 来表示在给定输入为 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 情况下，自编码神经网络隐藏神经元 $【转】自编码算法与稀疏性（AutoEncoder and Sparsity）$ 的激活度。进一步，让