一、简介

如前几节内容所述,无监督学习是关于在没有标签信息的情况下学习信息。这里的“信息”一词表示“结构”,例如,即使您不知道这些组的含义,您也想知道数据集中有多少组。此外,我们还使用无监督学习来可视化您的数据集,以便尝试从数据中学习一些见解。

二、未标记的数据示例

考虑以下数据集(X具有2个特征):
深度学习-无监督学习(1)

一种称为“聚类”的无监督学习算法用于推断数据集中有多少个不同的组。
深度学习-无监督学习(1)

在这里,我们仍然不知道这些组的含义,但是我们知道有4个组看起来非常不同。 在这种情况下,我们选择一个低维数据集,但在现实生活中,它可能是数千个维,即28x28灰度图像。
深度学习-无监督学习(1)

降维:
为了缩短分类响应时间(而不是预测性能),有时为了可视化高维数据集(2D,3D),我们使用了降维技术(即:PCA,T-Sne)。例如,MNIST数据集由60,000个(0…9)数字的训练示例组成,每个数字有784个维。 如此高的维度是由于每个数字都是28x28灰度图像。

很难形象化此数据集,因此一种选择是将其尺寸减小到监视器上可见的尺寸(2D,3D)。
深度学习-无监督学习(1)

容易看出分类器可能难以区分数字1和7。另一个优点是,这使我们对当前的功能集有多好的提示。

自动编码器:
我们还可以使用神经网络进行降维,其思想是我们拥有一个神经网络拓扑,可以近似输出层上的输入。 在中间,自动编码器的层较小。 训练后,中间层具有输入的压缩版本(有损)。
深度学习-无监督学习(1)

卷积神经网络预训练:
由于我们不需要标签信息来训练自动编码器,因此可以将它们用作卷积神经网络的预训练器。 因此,将来我们可以从无监督训练中初始化的权重开始您的训练。

相关文章: