深度学习－无监督学习(1)

一、简介

如前几节内容所述，无监督学习是关于在没有标签信息的情况下学习信息。这里的“信息”一词表示“结构”，例如，即使您不知道这些组的含义，您也想知道数据集中有多少组。此外，我们还使用无监督学习来可视化您的数据集，以便尝试从数据中学习一些见解。

二、未标记的数据示例

考虑以下数据集（X具有2个特征）：
深度学习－无监督学习(1)

一种称为“聚类”的无监督学习算法用于推断数据集中有多少个不同的组。
深度学习－无监督学习(1)

在这里，我们仍然不知道这些组的含义，但是我们知道有4个组看起来非常不同。在这种情况下，我们选择一个低维数据集，但在现实生活中，它可能是数千个维，即28x28灰度图像。
深度学习－无监督学习(1)

降维：
为了缩短分类响应时间（而不是预测性能），有时为了可视化高维数据集（2D，3D），我们使用了降维技术（即：PCA，T-Sne）。例如，MNIST数据集由60,000个（0…9）数字的训练示例组成，每个数字有784个维。如此高的维度是由于每个数字都是28x28灰度图像。

很难形象化此数据集，因此一种选择是将其尺寸减小到监视器上可见的尺寸（2D，3D）。
深度学习－无监督学习(1)

容易看出分类器可能难以区分数字1和7。另一个优点是，这使我们对当前的功能集有多好的提示。

自动编码器：
我们还可以使用神经网络进行降维，其思想是我们拥有一个神经网络拓扑，可以近似输出层上的输入。在中间，自动编码器的层较小。训练后，中间层具有输入的压缩版本（有损）。
深度学习－无监督学习(1)

卷积神经网络预训练：
由于我们不需要标签信息来训练自动编码器，因此可以将它们用作卷积神经网络的预训练器。因此，将来我们可以从无监督训练中初始化的权重开始您的训练。