统计学习方法读书笔记第二章：感知机

感知机

感知机模型
感知机学习策略
感知机学习算法

感知机

感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。

感知机模型

（感知机） 假设输入空间（特征空间）是 $\mathcal{X}\subseteq\bold{R^{n}}$ ，输出空间是 $\mathcal{Y}=\{+1,-1\}$ 。输入 $x\in\mathcal{X}$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输出 $y\in\mathcal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数
$f(x) = sign(w \cdot x + b)$
称为感知机。其中， $w$ 和 $b$ 为感知机模型参数， $w\in\bold{R^{n}}$ 叫作权值或权值向量， $b\in\bold{R}$ 叫作偏置， $w\cdot x$ 表示 $w$ 和 $x$ 的内积，sign是符号函数，即
$sign(x) = \left\{ \begin{array}{ll} +1,&x\geq 0 \\ -1, &x<0 \end{array} \right.$
感知机是一种线性分类模型，属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合 $\{f|f(x) = w \cdot x + b\}$ 。
感知机有如下几何解释：线性方程
$w \cdot x + b = 0$
对应于特征空间 $\bold{R}^n$ 中的一个超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点（特征向量）分别被分为正、负两类。因此，超平面 $S$ 称为分离超平面，如图所示：

感知机学习策略

数据集的线性可分性
感知机学习策略： 假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。
–损失函数选择的是误分类点到超平面 $S$ 的总距离，这是感知机所采用的。为此，首先写出输入空间 $\bold{R}^n$ 中任一点 $x_0$ 到超平面 $S$ 的距离：
$\frac{1}{||w||}|w \cdot x_0+b|$
这里， $||w||$ 是 $w$ 的 $L_2$ 范数。其次，对于误分类的数据 $(x_i,y_i)$ 来说，
$-y_i(w\cdot x_i+b) > 0$
这样，假设超平面 $S$ 的误分类点集合为 $M$ ，那么所有误分类点到超平面 $S$ 的总距离为
$-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b)$
不考虑 $\frac{1}{||w||}$ ，就得到感知机学习的损失函数。
$L(w,b) = -\sum_{x_i\in M}y_i(w\cdot x_i+b)$
显然，损失函数 $L(w,b)$ 是非负的。如果没有误分类点，损失函数值是0.而且，误分类点越少，误分类点离超平面越近，损失函数值就越小。一个特定的样本点的损失函数：在误分类时是参数 $w,b$ 的线性函数，在正确分类时是0。因此，给定训练数据集 $T$ ，损失函数 $L(w,b)$ 是 $w,b$ 的连续可导函数。

感知机学习算法

感知机学习问题转化为求解损失函数式的最优化问题，最优化的方法是随机梯度下降法。
感知机学习算法的原始形式
算法的收敛性
感知机学习算法的对偶形式