大间距分类器
在上节中,我们了解到了 SVM 最小化代价函数过程为:
θminC[i=1∑my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+21j=1∑nθj2
并且,当 y(i)=1 时,SVM 希望 θTx(i)≥1 ;而当 y(i)=0 时,SVM 希望 θTx(i)≤−1 。则最小化代价函数的过程就可以描述为:
min21j=1∑nθj2s.t.θTx(i)≥1if y(i)=1θTx(i)≤−1if y(i)=1
SVM 最终找出的决策边界会是下图中黑色直线所示的决策边界,而不是绿色或者紫色的决策边界。该决策边界保持了与正、负样本都足够大的距离,因此,SVM 是典型的大间距分类器(Large margin classifier)。

推导
假定有两个 2 维向量:
u=(u1u2),v=(v1v2)
令 p 为 v 投影到 u 的线段长(该值可正可负),如下图所示:

则 u、v 的内积为:
uTv=p ⋅∣∣u∣∣=u1v1+u2v2
其中,∣∣u∣∣ 为 u 的范数,也是 u 的长度。
假定我们的 θ=(θ1θ2) ,且 θ0=0 ,以使得向量 θ 过原点,则:
θmin21j=1∑2θj2=θmin21(θ1+θ2)2=θmin21(θ12+θ22)2=θmin21∣∣θ∣∣2
由向量内积公式可得:
θTx(i)=p(i)⋅∣∣θ∣∣
其中, p(i) 为特征向量 x(i) 在 θ 上的投影:

当 y(i)=1 时,我们希望 θTx(i)≥1 ,亦即希望 p(i)⋅∣∣θ∣∣≥q ,此时考虑两种情况:
-
p(i) 很小,则需要 ∣∣θ∣∣ 很大,这与我们 θmin21∣∣θ∣∣2 矛盾。
-
p(i) 很大,如下图所示,即样本与决策边界的距离足够大,此时我们才能在既要 ∣∣θ∣∣ 足够小的情况下,又能有 θtx(i)≥1 ,保证预测精度够高。这就解释了为什么 SVM 的模型会具有大间距分类器的性质了。