【Stanford Machine Learning Open Course】4. 特征优化

这里是斯坦福大学机器学习网络课程的学习笔记。课程地址是：https://class.coursera.org/ml-2012-002/lecture/index

在一个实际问题中，我们可以取得各种特征，对这些特征做一些适当处理，可以加快我们解决问题的效率。

1. 特征归一化

如果有两个特征，一个特征取值a1范围为[0,1], 另一个特征a2取值范围为[0,100000000], 那么在机器学习中a2很容易覆盖a1的效果，这个在线性模型中尤为明显，所以我们需要对特征进行处理，使每个特征在同一个范围内，比如[-1,1].

一种归一化方式： val := (val-mean)/(max-min), 其中mean是均值，max,min如字面意义。

另一种归一化方式：val: = (val-mean)/std, 其中mean是均值，std是标准差

有时样本集合中可能会有几个特别的噪声点，其特征值比其他大部分特征值大出太多或小太多，此时可以做一个容错处理，这样的噪声值不纳入计算mean, max, min的过程中，直接val置为归一化后的最大值（或最小值），即1或-1

2. 特征的取舍

特征未必是越多越好，有时要进行取舍。

比如在预估房价问题上，住房面积是一个有用的特征，但住房的长、宽就不需要单独作为特征。

问题：正规化方程组解法和梯度下降法都需要进行特征归一化么？

答：正规化方程组解法不需要，因为解的是方程组，在解方程组过程中对系数矩阵的某一列乘以一个系数没有什么意义。

梯度下降法需要，因为特征值变化大小会直接影响下降方向和下降距离。