原书中的定理:

对于(1)
上图中 γ 代表着

在定理中W^opt有个约束 ∥W^opt∥=1,这个约束是为了得到唯一的W^opt
W^opt 代表该参数可以完全把样本线性可分

对于(2)
了解了各参数的含义后,接下来证明两个公式:
假设
Wo^=(0,0,....,0)T;即∥Wo^∥=0
W^k=(Wk,bk)T代表在更新过程中的参数
证明1

过程(运用了递推)
在感知机中 W^k可以由 W^k−1得到

证明2

前置知识:

推导过程:
注意:yi=1或−1
对于错误分类的点 yi∗(w∗xi+b)<0
至于R2,可以在定理中找到其含义R=max(∥Xi∥)

下图画圈的地方是根据柯西不等式得出,
之后的推理运用了上面的两个公式:

反思:

对于证明的这两个公式可以看出
我们更新的Wk^要距离W^opt越来越近,即更新W^k要使得到的参数可以线性划分样本点:
- 所以这两个向量的内积才会大(但向量内积大也可能是w^k的长度变长)
- 所以才会右第二个结论来对其范数的限制