SMO算法 - 爱码网

SMO算法（Sequential minimal optimization）要解决的对偶问题

$\begin{aligned} max_{α} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y^{(i)} y^{(j)} ⟨ x^{(i)}, x^{(j)} ⟩ + \sum_{i = 1}^{m} α_{i} \end{aligned}$

$\begin{aligned} s.t. \sum_{i = 1}^{m} α_{i} y_{i} = 0 \end{aligned}$

$0 ⩽ α_{i} ⩽ C, i = 1, . . ., m$

该问题的收敛条件
$\begin{aligned} α_{i} = 0 & \Rightarrow y^{(i)} (w^{T} x^{(i)} + b) ⩾ 1 \\ α_{i} = C & \Rightarrow y^{(i)} (w^{T} x^{(i)} + b) ⩽ 1 \\ 0 < α_{i} < C & \Rightarrow y^{(i)} (w^{T} x^{(i)} + b) = 1 \end{aligned}$

SMO算法中的“minimal”表示我们希望一次迭代改变最小数量的 $α_{i}$ ，在该算法中只需要改变2个

Coordinate ascent
SMO算法
坐标上升法的特点是，尽管可能需要比较多的迭代次数，但是每一步迭代的代价非常低

SMO算法采用了Coordinate ascent的思想

考虑满足约束条件的 $α_{1}, α_{2}, . . ., α_{m}$ ，现在我们采用Coordinate ascent的思想来完成一次迭代，假设我们固定 $α_{2}, . . ., α_{m}$ ，取 $α_{1}$ 进行优化，这样做可行吗？

回答是不可行，因为约束 $\begin{aligned} \sum_{i = 1}^{m} α_{i} y_{i} = 0 \end{aligned}$ 始终是存在的，这意味着固定 $α_{2}, . . ., α_{m}$ ，则 $α_{1}$ 的取值只能是唯一的，所以不能只取 $α_{i}$ 进行优化，而应该取一对 $α_{i}$ ， $α_{j}$ 进行优化

假设我们固定 $α_{3}, \dots, α_{m}$ ，取 $α_{1}$ ， $α_{2}$ 进行优化

则 $α_{1} y^{(1)} + α_{2} y^{(2)} = ζ$

以 $α_{1}$ ， $α_{2}$ 为坐标轴，画出如下示意图

由于 $α_{1}$ ， $α_{2}$ 需要满足下列3个条件
$0 ⩽ α_{1} ⩽ C$
$0 ⩽ α_{2} ⩽ C$
$α_{1} y^{(1)} + α_{2} y^{(2)} = ζ$

故 $(α_{1}, α_{2})$ 可行的位置为图中红色线段， $α_{1}$ ， $α_{2}$ 各自可行的位置为图中绿色线段，换句话说， $α_{1}$ ， $α_{2}$ 的取值范围被各自限定在一个区间内

假设我们选取 $α_{2}$ 进行优化，并设 $α_{2}$ 可行的上下界分别为 $H$ 和 $L$ ，即 $L ⩽ α_{2} ⩽ H$

首先我们利用 $α_{1} y^{(1)} + α_{2} y^{(2)} = ζ$ 消去 $α_{1}$ ，最终得到一个只包含 $α_{2}$ 的式子，这个式子的最高次数为 $2$ ，可以直接套用公式求出最优解 $α_{2}^{*}$ （初中就已经学过如何求二次函数的最值）

然后还需要检查 $α_{2}^{*}$ 是否在区间 $[L, H]$ 内，如果不是，需要进行处理，得到迭代后的 $α_{2}^{n e w}$ ，处理方法如下

$α_{2}^{n e w} = {\begin{matrix} \begin{aligned} (46) & H i f α_{2}^{*} > H \\ (47) & α_{2}^{*} i f L ⩽ α_{2}^{*} ⩽ H \\ (48) & L i f α_{2}^{*} < L \end{aligned} \end{matrix}$

再利用 $α_{1}^{n e w} y^{(1)} + α_{2}^{n e w} y^{(2)} = ζ$ 求出 $α_{1}^{n e w}$ ，此时，本次迭代的工作完成

【重新思考】

假设参数更新前为 $[\begin{matrix} α_{1}^{old} & α_{2}^{old} & α_{3}^{old} & α_{4}^{old} & \dots & α_{m}^{old} \end{matrix}]$

我们选择变量 $α_{1}$ 和 $α_{2}$ 进行更新

参数更新后为 $[\begin{matrix} α_{1}^{new} & α_{2}^{new} & α_{3}^{old} & α_{4}^{old} & \dots & α_{m}^{old} \end{matrix}]$

那么有
$\begin{aligned} α_{1}^{old} + α_{2}^{old} = - \sum_{i = 3}^{m} α_{i}^{old} = ζ \end{aligned}$
$\begin{aligned} α_{1}^{new} + α_{2}^{new} = - \sum_{i = 3}^{m} α_{i}^{old} = ζ \end{aligned}$

为了计算 $ζ$ ，可以使用 $α_{1}^{old} + α_{2}^{old}$ 计算，或者使用 $\begin{aligned} - \sum_{i = 3}^{m} α_{i}^{old} \end{aligned}$ 计算，显然，计算简单的是后者

这就是为什么需要使用 $α_{1}^{old}$ 和 $α_{2}^{old}$ 的原因