大间距分类器

在上节中,我们了解到了 SVM 最小化代价函数过程为:
minθC[i=1my(i)cost1(θTx(i))+(1y(i))cost0(θTx(i))]+12j=1nθj2\min _θC[∑_{i=1}^m y^{(i)} cost_1(θ^Tx^{(i)})+(1−y^{(i)})cost_0(θ^Tx^{(i)})]+\frac12∑_{j=1}^nθ^2_j

并且,当 y(i)=1y^{(i)}=1 时,SVM 希望 θTx(i)1θ^Tx^{(i)}≥1 ;而当 y(i)=0y^{(i)}=0 时,SVM 希望 θTx(i)1θ^Tx^{(i)}≤−1 。则最小化代价函数的过程就可以描述为:
min12j=1nθj2\min \frac12∑_{j=1}^nθ^2_js.t.θTx(i)1if y(i)=1s.t.\quad θ^Tx^{(i)}≥1\quad if\ y^{(i)}=1θTx(i)1if y(i)=1θ^Tx^{(i)}≤-1\quad if\ y^{(i)}=1

SVM 最终找出的决策边界会是下图中黑色直线所示的决策边界,而不是绿色或者紫色的决策边界。该决策边界保持了与正、负样本都足够大的距离,因此,SVM 是典型的大间距分类器(Large margin classifier)。
5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授

推导

假定有两个 2 维向量:
u=(u1u2),v=(v1v2) u=\left( \begin{matrix} u_1\\ u_2 \end{matrix} \right), v=\left( \begin{matrix} v_1\\ v_2 \end{matrix} \right)

ppvv 投影到 uu 的线段长(该值可正可负),如下图所示:
5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授
uvu 、 v 的内积为:
uTv=p u=u1v1+u2v2u^Tv = p \ \cdot ||u||=u_1v_1+u_2v_2

其中,u||u||uu 的范数,也是 uu 的长度。
假定我们的 θ=(θ1θ2)θ=\left(\begin{matrix}θ_1\\θ_2 \end{matrix}\right) ,且 θ0=0θ_0=0 ,以使得向量 θθ 过原点,则:
minθ12j=12θj2=minθ12(θ1+θ2)2\min_θ\frac12∑_{j=1}^2θ_j^2 = \min_θ\frac12(θ_1+θ_2)^2=minθ12(θ12+θ22)2=\min_θ\frac12(\sqrt{θ_1^2+θ_2^2})^2=minθ12θ2=\min_θ\frac12||θ||^2

由向量内积公式可得:
θTx(i)=p(i)θθ^Tx^{(i)}=p^{(i)} \cdot ||θ||

其中, p(i)p^{(i)} 为特征向量 x(i)x^{(i)}θθ 上的投影:
5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授
y(i)=1y^{(i)}=1 时,我们希望 θTx(i)1θ^Tx^{(i)}≥1 ,亦即希望 p(i)θqp^{(i)}⋅||θ||≥q ,此时考虑两种情况:

  1. p(i)p^{(i)} 很小,则需要 θ||θ|| 很大,这与我们 minθ12θ2\min\limits_θ\frac12||θ||^2 矛盾。
  2. p(i)p^{(i)} 很大,如下图所示,即样本与决策边界的距离足够大,此时我们才能在既要 θ||θ|| 足够小的情况下,又能有 θtx(i)1θ^tx^{(i)}≥1 ,保证预测精度够高。这就解释了为什么 SVM 的模型会具有大间距分类器的性质了。
    5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授

相关文章:

  • 2021-12-12
  • 2021-08-14
  • 2021-07-03
  • 2021-12-22
  • 2021-08-11
  • 2021-12-07
  • 2021-12-30
  • 2021-09-18
猜你喜欢
  • 2021-06-08
  • 2021-09-02
  • 2021-05-05
  • 2021-07-26
  • 2021-05-23
  • 2021-07-16
  • 2022-01-12
相关资源
相似解决方案