吴恩达机器学习笔记第六至十章

第六章 Octave/Matlab 教程

第七章 Logistic(逻辑) 回归

Sigmoid Function/Logistic Function:
$g(z)=\frac{1}{1+e^{-z}}$

决策边界(Decision Boundary)： 由参数 $\theta$ 决定

代价函数(Cost Function)： 当线性回归的代价函数用于Logistic回归时，由于Simoid函数的存在，代价函数并不是一个标准的凸函数(如下图)，因此会产生很多局部最优点，不能保证模型很好的拟合，因此寻找一种新的代价函数来替代线性回归时的代价函数。

逻辑回归代价函数(Logistic Regression Cost Function)：
$J(\theta)=\frac{1}{m} \sum_{i=1}^{m} \operatorname{cost}\left(h_{\theta}\left(x^{(i)}\right), y^{(i)}\right)\\ \operatorname{cost}\left(h_{\theta}(x), y\right)=\left\{\begin{aligned}-\log \left(h_{\theta}(x)\right) & \ \ \ \ \ \text { if } y=1 \\-\log \left(1-h_{\theta}(x)\right) &\ \ \ \ \ \text { if } y=0 \end{aligned}\right.$

从图像当中可以看出，该代价函数具有很好的性质，例如：当 $y=1, h_{\theta}(x)=1$ 时，也就是预测值与标签值相同时，函数所获得的代价为0，而当 $y=1, h_{\theta}(x)=0$ 时，也就是预测值与标签值相差巨大时，函数所获得的代价值为无穷大。在 $y=0$ 时，函数具有相同的特性，因此该代价函数可以很好的指引学习过程。

根据简单的数学运算，上述代价函数可以简化为：
$\begin{aligned} J(\theta) &=\frac{1}{m} \sum_{i=1}^{m} \operatorname{cost}\left(h_{\theta}\left(x^{(i)}\right), y^{(i)}\right) \\ &=-\frac{1}{m}\left[\sum_{i=1}^{m} y^{(i)} \log h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right] \end{aligned}$
与线性回归相同，逻辑回归使用梯度下降法对参数 $\theta$ 进行更新优化：
$\theta_{j} :=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta)\\ \theta_{j} :=\theta_{j}-\alpha \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$
优化算法： 除了梯度下降算法之外，还有一些其他的算法如共轭梯度(Conjugate Gradient)算法 ，牛顿法(BFGS)，拟牛顿法(L-BFGS) 等等。他们具有无需手动选择学习率 $\alpha$ ，收敛速度更快等优点，但缺点就是比梯度下降算法更复杂。

对于多分类问题，可将多分类转换成 $n$ 个二分类问题来处理。

第八章正则化(Regularization)

欠拟合(Underfit)： 模型不能很好的拟合

过拟合(Overfitting)： 如果假设模型具有很多的特征，可能模型对于训练集匹配的很好，但对于新样本的泛化能力较差。

泛化(Generalized)： 一个假设模型应用到新样本的能力

解决过拟合的办法：

1、减少变量的数量——(人工选择变量、模型选择算法)

2、正则化

正则化代价函数：
$J(\theta)=\frac{1}{2 m}\left[\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda \sum_{j=1}^{n} \theta_{j}^{2}\right]$
式中，参数 $\lambda$ 为正则化参数，其作用为控制更好的拟合数据集与保持参数尽量小这两个目标之间的取舍问题。当 $\lambda$ 取值过大时，参数小到接近于 $0$ ，拟合函数接近于一条直线。

线性回归的正则化：

梯度下降法：
$\theta_{j} :=\theta_{j}\left(1-\alpha \frac{\lambda}{m}\right)-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$
正规方程法：
$\theta=\left(X^{T} X+\lambda \left[\begin{array}{ccccc}{0} \\ {} & {1} \\ {} & {} & {1} \\ {} & {} & {} & {\ddots} & {} \\ {} & {} & {} & {} & {1}\end{array}\right] \right)^{-1} X^{T} y$
使用该方法，矩阵不会出现不可逆的情况

逻辑回归的正则化： 与线性回归的方程相同
$\theta_{j} :=\theta_{j}\left(1-\alpha \frac{\lambda}{m}\right)-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$

第九章神经网络(Neural Networks)学习

神经网络： 可以拟合非线性假设

1、输入层：接收输入数据

2、隐藏层：中间层

3、输出层：输出数据

神经网络解决多元分类： 网络结构如下所示：

对于训练集 $\left(x^{(1)}, y^{(1)}\right),\left(x^{(2)}, y^{(2)}\right), \ldots,\left(x^{(m)}, y^{(m)}\right)$ 中的 $y^{(i)}$ ，表示为
$\left[\begin{array}{l}{1} \\ {0} \\ {0} \\ {0}\end{array}\right], \quad\left[\begin{array}{l}{0} \\ {1} \\ {0} \\ {0}\end{array}\right], \quad\left[\begin{array}{l}{0} \\ {0} \\ {1} \\ {0}\end{array}\right], \quad\left[\begin{array}{l}{0} \\ {0} \\ {0} \\ {1}\end{array}\right]$
分别对应输出层的四种类别。

第十章神经网络参数的反向传播算法

神经网络的代价函数：
$\begin{aligned} J(\Theta)=-& \frac{1}{m}\left[\sum_{i=1}^{m} \sum_{k=1}^{K} y_{k}^{(i)} \log h_{\theta}\left(x^{(i)}\right)_{k}+\left(1-y_{k}^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)_{k}\right)\right] \\+& \frac{\lambda}{2 m} \sum_{l=1}^{L-1} \sum_{i=1}^{s_{l}} \sum_{j=1}^{s_{l+1}}\left(\Theta_{j}^{(l)}\right)^{2} \end{aligned}$

第六章 Octave/Matlab 教程

第七章 Logistic(逻辑) 回归

第八章 正则化(Regularization)

第九章 神经网络(Neural Networks)学习

第十章 神经网络参数的反向传播算法

第八章正则化(Regularization)

第九章神经网络(Neural Networks)学习

第十章神经网络参数的反向传播算法