统计学习方法：感知机---证明算法收敛度

上图中 $\gamma$ 代表着
统计学习方法：感知机---证明算法收敛度

在定理中 $\hat{W}_{opt}$ 有个约束 $\lVert \hat{W}_{opt}\Vert=1$ ，这个约束是为了得到唯一的 $\hat{W}_{opt}$

$\hat{W}_{opt}$ 代表该参数可以完全把样本线性可分
统计学习方法：感知机---证明算法收敛度

了解了各参数的含义后，接下来证明两个公式:

$\hat{W_o} = (0,0,....,0)^T$ ;即 $\lVert\hat{W_o}\lVert=0$
$\hat{W}_k = （W_k, b_k)^T$ 代表在更新过程中的参数

统计学习方法：感知机---证明算法收敛度

在感知机中 $\hat{W}_{k}$ 可以由 $\hat{W}_{k-1}$ 得到
统计学习方法：感知机---证明算法收敛度

统计学习方法：感知机---证明算法收敛度

统计学习方法：感知机---证明算法收敛度

注意： $y_i = 1或-1$
对于错误分类的点 $y_i*(w*x_i+b)<0$
至于 $R^2$ ,可以在定理中找到其含义 $R =max(\lVert X_i\lVert)$
统计学习方法：感知机---证明算法收敛度
下图画圈的地方是根据柯西不等式得出，
之后的推理运用了上面的两个公式：

统计学习方法：感知机---证明算法收敛度
对于证明的这两个公式可以看出
我们更新的 $\hat{W_k}$ 要距离 $\hat{W}_{opt}$ 越来越近，即更新 $\hat{W}_k$ 要使得到的参数可以线性划分样本点：