多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate）

与单变量线性回归类似，在多变量线性回归中，我们也构建一个代价函数，则这个代价函数是所有建模误差的平方和。

即：多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate）

其中：多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate）

我们的目标和单变量线性回归问题中一样，是要找出使得代价函数最小的一系列参数。

多变量线性回归的批量梯度下降算法为：

多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate）

求导数后得到：
多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate）

我们开始随机选择一系列的参数值，计算所有的预测结果后，再给所有的参数一个新的值，如此循环直到收敛。

代码示例:

多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate）

特征缩放：

在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000 平方英尺，而房间数量的值则是 0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。

多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate）

解决的方法是尝试将所有特征的尺度都尽量缩放到-1 到 1 之间。如图：

多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate）

最简单的方法是令：多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate），其中是平均值，是标准差。

学习率：

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

多元（多变量）梯度下降与特征缩放、学习率 Gradient Descent for Multiple Variables （Feature Scaling、Learning Rate）

也有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值（例如 0.001）进行比较，但通常看上面这样的图表更好。梯度下降算法的每次迭代受到学习率的影响，如果学习率α过小，则达到收敛所需的迭代次数会非常高；如果学习率α过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑尝试些学习率：
α=0.01， 0.03， 0.1， 0.3, 1, 3, 10 （通常是3倍增加）