ML学习笔记第二周（一）：多元线性回归

其实第二周刚开始的部分是环境配置说明（Environment Setup Instructions），主要是Octave和Matlab的安装说明和一些教程类的东西，那个教程还是比较有用的，我把它写在参考资料里面了。

1 多特征（Multiple Features）

1.1 变量说明

变量名称	变量含义
x⁽ⁱ⁾_j	第i个训练实例中的第j的特征值
x⁽ⁱ⁾	第i个训练实例
m	训练集中训练实例的数量
n	每个训练实例中特征的个数

1.2 多特征假设函数

适应这些多个特征的假设函数的多变量形式如下：
ML学习笔记第二周（一）：多元线性回归
将假设函数转变为向量形式之后，我们就可以很方便的在Matlab里面对数据集进行操作了。

2 多变量的梯度下降（Gradient Descent for Multiple Variables）

之前第一周已经对如何求单变量情况下的代价函数J(θ₀,θ₁)的最小值，以及如何使用梯度下降算法进行了简单的推导。

在多变量情况下，令x₀=1，我们就可以推导出更加具有一般性的梯度下降算法公式，如下右图所示。

ML学习笔记第二周（一）：多元线性回归

3 实践中的梯度下降I——特征缩放

3.1 特征缩放（Feature Scaling）

还是用之前预测房价的例子，如果直接对训练集的各项特征值进行处理，作图并借助梯度下降算法，求得代价函数最小值的话，代价函数J(θ₀,θ₁)的的轮廓图就会是一个个椭圆（甚至还可能非常陡），梯度下降也需要走很多次才可以到达最低点。

我们可以通过使每个输入值在大致相同的范围内来加速梯度下降。这是因为θ将在小范围内快速下降并且在大范围内缓慢下降，因此当变量非常不均匀时，将无效地振荡到最佳值。防止这种情况的方法是修改输入变量的范围，使它们大致相同，这种方法就成为特征缩放（Feature Scaling）。

这样会使代价函数的轮廓图近似于一个个圆形，这样迭代的次数会减少，路径也会更加平缓。
ML学习笔记第二周（一）：多元线性回归
最理想的缩放结果就是，将特征值全部缩放到[-1,1]区间内部（其他相近的区间也可以接受），同时又不丢失其原本的特征。

3.2 均值归一化（Mean Normalization）

感觉这个地方就和概率论里边的标准正态分布很相似了。
以(x_i-μ_i)/s_i来代替x_i（1<=i<=n），其中x_i为第i项特征值，μ_i为所有第i项特征值的平均值，s_i为第i项特征值的标准差（一般情况下不用这么麻烦，用区间范围代替就可以了）。
ML学习笔记第二周（一）：多元线性回归