Coursera - 机器学习基石 - 课程笔记 - Week 9

Linear Regression Problem

直观的概念：对一个客体的多个特征 $\bold x = (x_0, x_1, \ldots, x_d)$ ，使用加权和计算得到一个实数值作为结果： $y \approx \sum_{i=0}^d w_i x_i$ （不需要像感知器一样做进一步的符号判断，即分类）
线性回归假设： $h(\bold x) = \bold w^T \bold x$
误差衡量：平方误差 $err(\hat y, y) = (\hat y - y) ^ 2$

线性回归的样本内误差 $E_{in}(\bold w) = \frac 1N \sum_{n=1}^N(\bold w^T \bold x_n - y_n)^2= \frac 1N \| \bold X \bold w - \bold y\|^2$
求梯度
- $E_{in}(\bold w) = \frac 1N \| \bold X \bold w - \bold y\|^2 = \frac 1N (\bold w^T \bold X^T \bold X \bold w - 2 \bold w^T \bold X^T \bold y + \bold y^T \bold y)$
- $\nabla E_{in}(\bold w) = \frac 2N(\bold X^T \bold X \bold w - \bold X^T \bold y)$
对可逆的 $\bold X^T \bold X$ ：
- 唯一解： $\bold w_{lin} = (\bold X^T \bold X)^{-1}\bold X^T \bold y = \bold X^\dagger \bold y$ （ $\bold X^\dagger$ 有 $d+1$ 个特征值为1）
- 普遍情形：一般情况下都有 $N \gg d+1$ ，逆矩阵存在
没有反矩阵存在：
- 可能有多个解： $\bold w_{lin} = \bold X^\ast \bold y$ ，以其他方式定义 $\bold X^\ast$

线性回归是一种学习算法：
- $E_{in}$ 很小
- $E_{out}$ 也很小
- 隐式地迭代“伪逆”过程
另一种解释方法： ${E_{in}}$ 的平均值
- $\bar E_{in} = \epsilon_{\mathcal D \sim P^N} \{ E_{in}(\bold w_{LIN} \ w.r.t. \ \mathcal D) \}$
- 上式可表示为 $\text{noise level} \cdot (1 - \frac {d + 1} {N})$ ，即数据量越大越接近噪声水平
- 还有 $\bar E_{out} = \text{noise level} \cdot (1 + \frac {d + 1} {N})$
学习曲线
- 当 $N \to \infty$ 时，两个误差都收敛于 $\sigma^2(\text{noise level})$
- 泛化误差期望： $2 \frac{d + 1}{N}$
- 当噪声不是很大时，学习确实发生了