目录
4.1 多维特征
例子代入:
定义:
n = 特征数目
= 第i个训练样本的所有输入特征,可以认为是一组特征向量
=> 第i个训练样本第j个特征的值,可以认为是特征向量中的第j个值
为了方便,记 = 1,则多变量线性回归可以记为:(x)=x,其中θ和x都是向量。
4.2 多变量梯度下降
和单变量的损失函数相同:
其中,
求导迭代如下:
4.3 特征缩放
核心思想:确保特征在相似的尺度里
例如房价问题:
特征1:房屋的大小(0-2000);特征2:房间数目(1-5);
简单的归一化:
目标:使每一个特征值都近似的落在−1≤xi≤1的范围内。
举例:因为是近似落在这个范围内,所以只要接近的范围基本上都可以接受,例如:
0<=x1<=3, -2<=x2<=0.5, -3 to 3, -1/3 to 1/3 都ok;
但是:-100 to 100, -0.0001 to 0.0001不Ok。
均值归一化
方法:将各个特征缩放至大致相同的尺度,最简单的方法就是特征减去均值除以方差。如下所示:
4.4 梯度下降法实践2-学习率
学习率过小收敛慢,学习率过大可能导致无法收敛。
通常通过三倍放大来考虑学习率的设置,比如:0.01,0.03,0.1,0.3,1,3,10……。
4.5 特征和多项式回归
比如一个二次模型:
或者三次模型:
可以通过创建新特征(即令):
从而将模型转换成线性模型。
4.6 正规方程
| 梯度下降 | 正规方程 |
|---|---|
| 需要选择学习率 | 不需要 |
| 需要多次迭代 | 一次运算得出 |
| 当特征数量n大时也能较好适用 | 需要计算(如果特征数量n较大则运算代价大,因为矩阵逆的计算时间复杂度为O(,通常来说当n小于10000 时还是可以接受的 |
| 适用于各种类型的模型 | 只适用于线性模型,不适合逻辑回归模型等其他模型 |
总结:只要特征变量的数目并不大,标准方程是一个很好的计算参数的替代方法。具体地说,只要特征变量数量小于一万,通常使用标准方程法,而不使用梯度下降法。
4.7 正规方程及不可逆性:
-
特征之间互相不独立时不可逆;
-
样本数少于特征数时不可逆。
解决方法:
- 去掉冗余的特征(线性相关):
例如以平方英尺为单位的面积, 和以平方米为单位的面积,其是线性相关的: - 过多的特征,例如m <= n:
删掉一些特征
4.8 参考文章
吴恩达机器学习_第四章_线性代数回顾_学习总结
吴恩达《机器学习》课程总结(4)多变量线性回归