【吴恩达机器学习】降维

降维是无监督学习问题，降维有两个应用：数据压缩和可视化数据

目标一：数据压缩

如果特征高度相关，就要降低维数。本节主要是用了两个例子，二维降到一维、三维降到二维，来告诉我们什么是降维。
二维降到一维就是把二维的点都映射到一条直线，用一个实数z就可以表示，如下图。
【吴恩达机器学习】降维

三维降到二维就是把三维的点都映射到一个平面，用两个实数z1和z2就可以表示，如下图。

降维不仅可以减少内存需求，可以使算法运行的更快。

目标2：可视化

当有一个很多维的数据集，我们很难将其可视化。我们可以通过降维把几十维甚至几百维的数据降到2维或3维，这样就可以可视化出来了。

主成分分析问题规划1

降维问题目前最流行的一个算法就是主成分分析（PCA）算法。
PCA会找一个低维平面，然后将数据投影在上面，使样本到这个平面的长度（投影误差）平方最小。

PCA做的是：如果想将数据从二维降到一维，我们要试着找一个向量，假如是向量 $u^{(i)}$ （无论是真的 $u^{(i)}$ 还是负的 $-u^{(i)}$ 都没有关系，因为定义的是同一条直线），我们要找一个数据投影后能够最小化投影误差的方向。
如果有N维向量，那就要找k个向量来对数据进行投影
PCA做的是：找到k个向量，然后将数据以最小化平方投影到这k个向量展开的线性子空间上

在应用PCA之前要先进行均值归一化和特征规范化，使得特征向量 $x_1,x_2$ 均值为0，并且数值在可比较的范围内。

PCA和线性回归的比较

PCA和线性回归看起来有些相似，下面我们一起来看一下他们之间的区别：
【吴恩达机器学习】降维
从上图可以看出，
①左图线性回归是要通过所有的x对变量y进行预测，而PCA的变量都是平等的，没有特殊的要预测的y。
②左图线性回归的最小距离是垂直的，而右图的PCA是点到找的直线的距离是正交距离。