降维是无监督学习问题,降维有两个应用:数据压缩和可视化数据
目标一:数据压缩
如果特征高度相关,就要降低维数。本节主要是用了两个例子,二维降到一维、三维降到二维,来告诉我们什么是降维。
二维降到一维就是把二维的点都映射到一条直线,用一个实数z就可以表示,如下图。
三维降到二维就是把三维的点都映射到一个平面,用两个实数z1和z2就可以表示,如下图。
降维不仅可以减少内存需求,可以使算法运行的更快。
目标2:可视化
当有一个很多维的数据集,我们很难将其可视化。我们可以通过降维把几十维甚至几百维的数据降到2维或3维,这样就可以可视化出来了。
主成分分析问题规划1
降维问题目前最流行的一个算法就是主成分分析(PCA)算法。
PCA会找一个低维平面,然后将数据投影在上面,使样本到这个平面的长度(投影误差)平方最小。
PCA做的是:如果想将数据从二维降到一维,我们要试着找一个向量,假如是向量(无论是真的还是负的都没有关系,因为定义的是同一条直线),我们要找一个数据投影后能够最小化投影误差的方向。
如果有N维向量,那就要找k个向量来对数据进行投影
PCA做的是:找到k个向量,然后将数据以最小化平方投影到这k个向量展开的线性子空间上
在应用PCA之前要先进行均值归一化和特征规范化,使得特征向量均值为0,并且数值在可比较的范围内。
PCA和线性回归的比较
PCA和线性回归看起来有些相似,下面我们一起来看一下他们之间的区别:
从上图可以看出,
①左图线性回归是要通过所有的x对变量y进行预测,而PCA的变量都是平等的,没有特殊的要预测的y。
②左图线性回归的最小距离是垂直的,而右图的PCA是点到找的直线的距离是正交距离。