梯度下降的特征缩放

假如有两个特征，一个是房子的面积 x₁,一个是房间数量
0< x₁<2000 feet²,一个特征是房间数量 x₂,1<=x₂<=5

x₁ 远远大于 x₂，故轮廓图如下

由于 x₁和x₂的范围相差太大，轮廓图是一个又瘦又高的椭圆型轮廓图

梯度下降的特征缩放

寻找全局最小的路径将会是一条曲折的路径

梯度下降的特征缩放

而如果用这个代价函数来运行梯度下降的话，要得梯度值，最终可能需要花很长一段时间并且可能来回波动，然后经过很长时间才能收敛到全局最小值。

两个特质之间的范围差距缩小了，这样的轮廓图更加圆，梯度下降算法就会找到一条更加捷径的路径通向全局最小。

因此通过特征缩放，通过“消耗掉”这些值范围。在这个例子中，我们把 x₁，x₂都缩小到（0，1）之间
更一般的，执行特征缩放的时候，我们经常是将特征的取值约束到 -1 到 1 的范围内，不一定是（-1，1）

之间，如（0，3）或（-2，0）这些都非常接近

如果特征值的范围缩小在（-100，100）或 (-0-0001，0.00001)则会认为这个特征不太好

通常，看这类曲线来试着判断梯度下降算法是否已经收敛

梯度下降的特征缩放

梯度下降的特征缩放

如图所示：梯度下降算法没有正常工作

而这样的曲线通常意味着你应该使用较小的学习率α

2.2 总结

学习率α太小会使迭代缓慢，学习率太大会使每次迭代不一定是减小

学习率可以尝试取：

… 0.001，0.003，0.01，0.03，0.1，0.3，1, 1x3 …