Machine Learning Course-CS 156 笔记 3

Lecture 3 : The Linear Model I

一个数据集：

每个数字尺寸是 $16 \times 16$ ，也就是 $256$ 个值。

‘raw’ input $X = (x_{0}, x_{1}, x_{2}, . . ., x_{256}) (x_{0} = 1)$
linear model : $(w_{0}, w_{1}, w_{2}, . . ., w_{256})$

特征：提取有用的信息。
例如强度和对称性： $X = (x_{0}, x_{1}, x_{2})$
此时 $W = (w_{0}, w_{1}, w_{2})$
$x_{1}$ 是强度， $x_{2}$ 是对称性。下图是1和5的区别。

Machine Learning Course-CS 156 笔记 3

PLA的应用：
- $E_{i n}$ 和 $E_{o u t}$ 的演化
Machine Learning Course-CS 156 笔记 3
- 最终的边界

- Pocket 算法
保存迭代过程中的最优解

regression $\equiv$ real-valued output

继续用银行信用举例
- 分类：是否有信用
- 回归：信用额度

Input： $x$

年龄	性别	年薪	定居时间	债务	…
23岁	男	$30000	1年	$15000	…

Output:

\begin{matrix} (26) & h (x) = \sum_{i = 0}^{d} w_{i} x_{i} = W^{T} X \end{matrix}

数据集： $(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})$

误差函数：利用 $(h (x) - f (x))^{2}$

\begin{matrix} (27) & E_{i n} (h) = \frac{1}{N} \sum_{n = 1}^{N} (h (x) - f (x))^{2} \end{matrix}

$E_{i n}$ 的表示：

\begin{matrix} (28) & E_{i n} (W) = \frac{1}{N} \sum_{n = 1}^{N} (W^{T} x_{n} - y_{n})^{2} = \frac{1}{N} | | X W - Y | |^{2} \end{matrix}

其中

\begin{matrix} (29) & X = [\begin{matrix} \dots & x_{1}^{T} & \dots \\ \dots & x_{2}^{T} & \dots \\ ⋮ \\ \dots & x_{N}^{T} & \dots \end{matrix}], Y = [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{N} \end{matrix}] \end{matrix}

最小化 $E_{i n}$

\begin{matrix} (30) & 令 \nabla E_{i n} (W) = \frac{2}{N} X^{T} (X W - Y) = 0 X^{T} X W = X^{T} Y 即 W = X^{†} Y, 其 中 X^{†} = (X^{T} X)^{- 1} X^{T} \end{matrix}

X^{†} 是 X 的 伪 逆 矩 阵 (以 防 X 是 非 可 逆 矩 阵)

关于伪逆矩阵
https://en.wikipedia.org/wiki/Generalized_inverse
https://en.wikipedia.org/wiki/Moore%E2%80%93Penrose_inverse

线性回归算法：
1.构建 $X$ 矩阵和 $Y$ 矩阵
2.计算伪逆矩阵 $X^{†} = (X^{T} X)^{- 1} X^{T}$
3.返回 $W = X^{†} Y$

线性回归也可以用于分类

线性是受限的，比如：

Machine Learning Course-CS 156 笔记 3

在银行信用额度示例里，居住年限是非线性影响额度的

将 $(x_{1}, x_{2}) \overset{Φ}{⟶} (x_{1}^{2}, x_{2}^{2})$ 上图变为：
Machine Learning Course-CS 156 笔记 3