入门机器学习（二）

非监督学习

听到名字就觉得很厉害，毕竟即使面临高考的高中生，也还是需要在老师的监督下，才能顺利完成中学学业。

那么派给计算机这种艰难的人性化任务，他能够做到吗？
首先，回忆下前文的监督类学习，在给计算机训练样本的同时，也递交给他一个小标签，那个标签写着这个样本属于哪个目标。
非监督学习就不会给计算机递交这个标签了，你只需要给计算机一堆的数据，比如，你把一堆的小猫小狗小猪的图片乱序打包，一起交给计算机，让他自己分类。
难吗？难。
可以实现吗？可以。

聚类

计算机有很强大的运算系统，他能够高效高速完成很多复杂运算。这么一堆无序的图片，在经过计算机高维数据降维后，都会变成这种样子：

入门机器学习（二）

当数据分布变成这种样子，我们就需要做分类了，可以尝试性开始分几类，甚至原始中心设置随机值，你告诉计算机两个指标：

类间差异尽量大；
类内尽量相似。

这个怎么理解呢？你试图分了几类，然后把每类的数据，归属给该类。
类中间，大家尽量的比较相似；
类之间，需要有很大的差异分割。
不然，怎么叫不同的类别呢。
类间差异类内差异可以这样描述：方差。毕竟属于同一类的，方差比较小。
代表该类的特征，可以通过均值表述。

那接下来，就是在不断的迭代中，寻找多个均值和方差，力求达到那两个目标。
这件事情对计算机来说，并不难。就算CPU不够，还可以调动强大的GPU协助。

至于如何把一堆图片转换成类似上图这种简洁格式，那就是所谓的非线性化处理了。