5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授

大间距分类器

在上节中，我们了解到了 SVM 最小化代价函数过程为：
$\min _θC[∑_{i=1}^m y^{(i)} cost_1(θ^Tx^{(i)})+(1−y^{(i)})cost_0(θ^Tx^{(i)})]+\frac12∑_{j=1}^nθ^2_j$

并且，当 $y^{(i)}=1$ 时，SVM 希望 $θ^Tx^{(i)}≥1$ ；而当 $y^{(i)}=0$ 时，SVM 希望 $θ^Tx^{(i)}≤−1$ 。则最小化代价函数的过程就可以描述为：
$\min \frac12∑_{j=1}^nθ^2_j$ $s.t.\quad θ^Tx^{(i)}≥1\quad if\ y^{(i)}=1$ $θ^Tx^{(i)}≤-1\quad if\ y^{(i)}=1$

SVM 最终找出的决策边界会是下图中黑色直线所示的决策边界，而不是绿色或者紫色的决策边界。该决策边界保持了与正、负样本都足够大的距离，因此，SVM 是典型的大间距分类器（Large margin classifier）。
5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授

推导

假定有两个 2 维向量：
$u=\left( \begin{matrix} u_1\\ u_2 \end{matrix} \right), v=\left( \begin{matrix} v_1\\ v_2 \end{matrix} \right)$

令 $p$ 为 $v$ 投影到 $u$ 的线段长（该值可正可负），如下图所示：
5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授
则 $u 、 v$ 的内积为：
$u^Tv = p \ \cdot ||u||=u_1v_1+u_2v_2$

其中， $||u||$ 为 $u$ 的范数，也是 $u$ 的长度。
假定我们的 $θ=\left(\begin{matrix}θ_1\\θ_2 \end{matrix}\right)$ ，且 $θ_0=0$ ，以使得向量 $θ$ 过原点，则：
$\min_θ\frac12∑_{j=1}^2θ_j^2 = \min_θ\frac12(θ_1+θ_2)^2$ $=\min_θ\frac12(\sqrt{θ_1^2+θ_2^2})^2$ $=\min_θ\frac12||θ||^2$

由向量内积公式可得：
$θ^Tx^{(i)}=p^{(i)} \cdot ||θ||$

其中， $p^{(i)}$ 为特征向量 $x^{(i)}$ 在 $θ$ 上的投影：
5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授
当 $y^{(i)}=1$ 时，我们希望 $θ^Tx^{(i)}≥1$ ，亦即希望 $p^{(i)}⋅||θ||≥q$ ，此时考虑两种情况：

$p^{(i)}$ 很小，则需要 $||θ||$ 很大，这与我们 $\min\limits_θ\frac12||θ||^2$ 矛盾。
$p^{(i)}$ 很大，如下图所示，即样本与决策边界的距离足够大，此时我们才能在既要 $||θ||$ 足够小的情况下，又能有 $θ^tx^{(i)}≥1$ ，保证预测精度够高。这就解释了为什么 SVM 的模型会具有大间距分类器的性质了。