原书中的定理:

统计学习方法: 感知机---证明算法收敛度

对于(1)

上图中 γ\gamma 代表着
统计学习方法: 感知机---证明算法收敛度

在定理中W^opt\hat{W}_{opt}有个约束 W^opt=1\lVert \hat{W}_{opt}\Vert=1,这个约束是为了得到唯一的W^opt\hat{W}_{opt}

W^opt\hat{W}_{opt} 代表该参数可以完全把样本线性可分
统计学习方法: 感知机---证明算法收敛度

对于(2)

了解了各参数的含义后,接下来证明两个公式:

假设

Wo^=(0,0,....,0)T\hat{W_o} = (0,0,....,0)^T;即Wo^=0\lVert\hat{W_o}\lVert=0
W^k=Wk,bk)T\hat{W}_k = (W_k, b_k)^T代表在更新过程中的参数

证明1

统计学习方法: 感知机---证明算法收敛度

过程(运用了递推)

在感知机中 W^k\hat{W}_{k}可以由 W^k1\hat{W}_{k-1}得到
统计学习方法: 感知机---证明算法收敛度

证明2

统计学习方法: 感知机---证明算法收敛度

前置知识:

统计学习方法: 感知机---证明算法收敛度

推导过程:

注意:yi=11y_i = 1或-1
对于错误分类的点 yi(wxi+b)<0y_i*(w*x_i+b)<0
至于R2R^2,可以在定理中找到其含义R=max(Xi)R =max(\lVert X_i\lVert)
统计学习方法: 感知机---证明算法收敛度
下图画圈的地方是根据柯西不等式得出,
之后的推理运用了上面的两个公式:
统计学习方法: 感知机---证明算法收敛度

反思:

统计学习方法: 感知机---证明算法收敛度
对于证明的这两个公式可以看出
我们更新的Wk^\hat{W_k}要距离W^opt\hat{W}_{opt}越来越近,即更新W^k\hat{W}_k要使得到的参数可以线性划分样本点:

  1. 所以这两个向量的内积才会大(但向量内积大也可能是w^k\hat{w}_k的长度变长)
  2. 所以才会右第二个结论来对其范数的限制

相关文章: