吴恩达课程中的正则化

#Regulation
(1) 过拟合问题

⭐️对过拟合的理解:
- 本质可以理解成数据集噪声对整个数据拟合时造成的泛化性下降。
  $\quad$ 比如让机器来识别甜甜圈，一开始提供的特征为圆的、中间有一个空洞，这时机器就会对甜甜圈进行一个基本的判断。但是，当又加入特征，比如带有黑色的(黑巧克力)之后，机器反而对甜甜圈的识别率下降了，当有一个白巧克力的甜甜圈出现时，机器就会识别不出来，最终导致机器只是完美的通过了每个数据点但是却无法进行预测。
- $\quad$ 对于机器来说，样本一方面具有共性的特征，另一方面又具有特性的特征，就好像甜甜圈的颜色本身对“是否为甜甜圈？”这个命题没有影响，甜甜圈本身的颜色就是它的特性，如果机器在学习过程中太“在意”这个特征时就会导致过拟合现象的产生。
下面从数学函数角度来说明:
- 对于 $Liner　Regression$ 问题
  
  对于图1来说这是欠拟合状态，对于图2来说，这是比较好的拟合状态，对图三来说，这是过拟合状态。
- 对于 $Logistic　Regression$ 问题
过拟合问题的解决方案:
1️⃣ 由过拟合产生的原因可以提出第一种解决方法，精挑细选特征，尽量减少非共性特征的数量。
2️⃣ 使用正则化方法，对机器的学习进行一定的限制。

(2) 代价函数

对于这个函数来说，只要使 $\theta_3$ 与 $\theta_4$ 的值足够小就不会对函数的拟合产生太大影响了，因此这里可以考虑给 $\theta_3$ 与 $\theta_4$ 添加一个惩罚项。
例如： $J(\theta) = \dfrac{1}{2m}[\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}+1000\theta_3^2+1000\theta_4^2]$
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tPyl87bG-1574592081312)(1.png)]
当不知道哪个 $\theta$ 是产生过拟合的原因时，就对所有的 $\theta$ 进行惩罚，让所有的 $\theta$ 值都减小。
$J(\theta) = \dfrac{1}{2m}[\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}+\lambda\sum\limits_{j=1}\limits^{n}\theta_j^2]$
$\lambda$ 称为正则化参数，并且要注意，惩罚是从 $\theta_1$ 开始的，一般不对 $\theta_0$ 进行惩罚。
注意:参数 $\lambda$ 的选择要合适，否则会导致最后 $\theta_1,\dots,\theta_n$ 都被惩罚到接近0，最后就是一条直线了。

(3)线性回归的正则化

(4)逻辑回归的正则化

代价函数
$J\left( \theta \right)=\dfrac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}+\dfrac{\lambda }{2m}\sum\limits_{j=1}^{n}{\theta _{j}^{2}}$
求导后的梯度下降函数为
$Repeat$ $until$ $convergence$ {
${\theta_0}:={\theta_0}-a\dfrac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})$

${\theta_j}:={\theta_j}-a[\dfrac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\dfrac{\lambda }{m}{\theta_j}]$
$for$ $j=1,2,...n$
}
matlab代码
$function [jVal, gradient]=costFunction(theta)$
$\qquad jVal=[J的函数的表达式];$
$\qquad gradient=一个初始值;$
$\qquad gradient(1)=\dfrac{\partial J(\theta)}{\partial \theta_0};$

$\qquad gradient(2)=\dfrac{\partial J(\theta)}{\partial \theta_1};$
$\qquad \dots$
$\qquad gradient(n+1)=\dfrac{\partial J(\theta)}{\partial \theta_n};$