核方法 - 爱码网

拉格朗日对偶（Lagrange duality）

对于凸优化问题来说，无约束的优化一般可以使用一阶导数为零求解。而对于有约束条件的凸优化来说，拉格朗日对偶理论是对凸的最优解的研究。

假设 $f (x), c_{i} (x), h_{j} (x)$ 是定义在 $R^{n}$ 上的连续可微函数()，考虑约束最优化问题：

\begin{aligned} (1) & min_{x \in R^{n}} & f (x) \\ (2) & s . t . & c_{i} (x) \leq 0, i = 1, 2, \dots, k \\ (3) & h_{j} (x) = 0, j = 1, 2, \dots, k \end{aligned}

拉格朗日乘子

引入一个人工构造的拉格朗日函数，广义拉格朗日函数（generalized Lagrange function）:

L (x, α, β) = f (x) + \sum_{i = 0}^{k} α_{i} c_{i} (x) + \sum_{j = 1}^{l} β_{j} h_{j} (x)

x = (x^{(1)}, x^{(2)}, \dots, x^{(n)}) \in R^{n}, α_{i}, β_{j}

是拉格朗日乘子，特别要求

α_{i} \geq 0

总结：通过拉格朗日的办法重新定义一个无约束问题这个无约束问题等价于原来的约束优化问题，从而将约束问题无约束化。

原问题与对偶问题

原问题（The primal problem）
$min_{x} \underset{c a l l t h i s θ_{P} (x)}{\underset{⏟}{[max_{α, β : α_{i} \geq 0} L (x, α, β)]}} = min_{x} θ_{P} (x)$
在上述方程中，函数 $θ_{P} (x)$ 称为原目标，右端无约束极小化问题就原问题。假设原问题的最优值为： $p^{*} = min_{x} θ_{P} (x)$
对偶问题（The dual problem）
把上面式子最大化和最小化切换一下，就可以得到：
$max_{α, β : α_{i} \geq 0} \underset{c a l l t h i s θ_{D} (α, β)}{\underset{⏟}{[min_{x} L (x, α, β)]}} = max_{α, β : α_{i} \geq 0} θ_{D} (α, β)$
在上述方程中，函数 $θ_{D} (x)$ 称为对偶目标，右边就是有约束极大化问题即对偶问题。假设对偶问题的最优值为： $d^{*} = max_{α, β : α_{i} \geq 0} θ_{D} (α, β)$

原始问题与对偶问题的关系

若原始问题与对偶问题都有最优值，则：

\begin{aligned} (4) & d^{*} & = max_{α, β : α_{i} \geq 0} min_{x} L (x, α, β) \\ (5) & \leq min_{x} max_{α, β : α_{i} \geq 0} L (x, α, β) = p^{*} \end{aligned}

从上面能得出原始问题的最优值不小于对偶问题的最优值。但是我们要通过对偶问题来求解原始问题，就必须使得原始问题的最优值与对偶问题的最优值相等。上面简单来说就是：

设 $x^{*} α^{*}, β^{*}$ 分别是原始问题和对偶问题的可行解，如果 $d^{*} = p^{*}$ ，那么 $x^{*}$ 和 $α^{*}, β^{*}$ 都是原始问题和对偶问题的最优解。

总结：显然原问题与对偶问题是不等价的，我们需要让他满足一些条件来达到等价。而满足 $d^{*} = p^{*}$ ，即需要KKT条件。

KKT条件

对于原始问题和对偶问题，假设函数 $f (x)$ 和 $c_{i} (x)$ 是凸函数， $h_{i} (x)$ 是仿射函数（即由一阶多项式构成的函数， $f (x) = A x + b$ , $A$ 是矩阵， $x$ , $b$ 是向量；并且假设不等式约束 $c_{i} (x)$ 是严格可行的，即存在 $x$ ，对所有 $i$ 有 $c_{i} (x) < 0$ ，则 $x^{*}$ 和 $α^{*}, β^{*}$ 分别是原始问题和对偶问题的最优解的充分必要条件是 $x^{*}$ 和 $α^{*}, β^{*}$ 满足下面的 Karush-Kuhn-Tucker(KKT) 条件：

\begin{aligned} (6) & 1.(Lagrangian stationarity) \nabla_{x} L (x^{*}, α^{*}, β^{*}) = 0 \\ (7) & 2.(Complementary slackness) α_{i}^{*} c_{i} (x) = 0, i = 1, 2, \dots, k a n d h_{j} (x^{*}) = 0, j = 1, 2, \dots, l \\ (8) & 3.(Primal feasibility) c_{i} (x) \leq 0, i = 1, 2, \dots, k \\ (9) & 4.(Dual feasibility) α_{i}^{*} \geq 0, i = 1, 2, \dots, k \end{aligned}

关于KKT 条件的理解：第一个条件是由解析函数的知识，对于各个变量的偏导数为0。特别注意当

α_{i}^{*} > 0

时，由KKT松弛互补条件可知：

c_{i} (x^{*}) = 0

。（推导SVM中使用）

总结：拉格朗日乘子法就是把原始的约束问题通过拉格朗日函数转化为无约束问题，如果原始问题求解棘手，在满足KKT的条件下用求解对偶问题来代替求解原始问题，使得问题求解更加容易。

从等式优化——>不等式优化——>KKT条件理解拉格朗日乘子法，参考链接如下：
约束优化方法之拉格朗日乘子法与KKT条件

SVM(Support Vector Machine)

支持向量机即 Support Vector Machine，简称 SVM 。其目的就是寻找到一个超平面使样本分成两类，并且间隔（如何推导出间隔点我）最大。

线性可分SVM的推导

我们求得的w就代表着我们需要寻找的超平面的系数。用数学语言表达就是一个凸二次规划问题（convex quadratic programming）：

\begin{aligned} (10) & max \frac{1}{‖ w ‖}, \\ (11) & s . t ., y_{i} (w^{T} x_{i} + b) \geq 1, i = 1, \dots, n \end{aligned}

通过求解这个问题，我们就可以找到一个间隔最大的分类器，如下图所示，中间的红色线条是最优超平面：
核方法

这个问题等价于（为了方便求解，加上平方，还有一个系数，显然这两个问题是等价的，因为我们关心的并不是最优情况下目标函数的具体数值）：

\begin{aligned} (12) & min \frac{1}{2} ‖ w ‖^{2} \\ (13) & s . t ., y_{i} (w^{T} x_{i} + b) \geq 1, i = 1, \dots, n \end{aligned}

提炼出线性可分情况下 SVM 的学习算法:
输入：线性可分数据集 ${(x_{i}, y_{i})}_{i = 1}^{N}$
1. 构造约束最优化问题：

\begin{aligned} min_{w, b} \frac{1}{2} | | w | |^{2} \\ s . t . y_{i} (w \cdot x_{i} + b) \geq 1, i = 1, 2, . . ., N \end{aligned}

2. 求解得到

w^{*}, b^{*}

，分类超平面即为

w^{*} \cdot x + b^{*} = 0

3. 对于新的观测数据

x

，根据

f (x) = s i g n (w^{*} \cdot x + b^{*}) f (x) = s i g n (w * \cdot x + b^{*})

判断其类别

y

即可.

现在回到之前的优化目标，也即原始问题

\begin{aligned} (14) & min \frac{1}{2} ‖ w ‖^{2} \\ (15) & s . t ., y_{i} (w^{T} x_{i} + b) \geq 1, i = 1, \dots, n \end{aligned}

这里就可以使用拉格朗日乘子法了：

L (w, b, α) = \frac{1}{2} ‖ w ‖^{2} - \sum_{i = 1}^{n} α_{i} (y_{i} (w^{T} x_{i} + b) - 1)

然后每对满足原始问题与对偶问题的解都满足 KKT 条件，即:

\begin{aligned} \nabla_{w} L (w^{*}, b^{*}, a^{*}) = w^{*} - \sum_{i = 1}^{N} a_{i}^{*} y_{i} x_{i} = 0 \\ \nabla_{b} L (w^{*}, b^{*}, a^{*}) = - \sum_{i = 1}^{N} a_{i}^{*} y_{i} = 0 \\ a_{i}^{*} (y_{i} (w^{*} \cdot x + b^{*}) - 1) = 0 \\ y_{i} (w^{*} \cdot x + b^{*}) - 1 \geq 0 \\ a_{i} \geq 0, i = 1, 2, . . ., N \end{aligned}

这里至少存在一个

a_{j}^{*} > 0

，使得

y_{j} (w \cdot x_{j} + b) - 1 = 0

，这便是支持向量，然后根据 KKT 条件可得：

\begin{aligned} \frac{\partial L (w, b, a)}{\partial w} & = 0 \Rightarrow w - \sum_{i = 1}^{N} a_{i} y_{i} x_{i} = 0 \\ \frac{\partial L (w, b, a)}{\partial b} & = 0 \Rightarrow - \sum_{i = 1}^{N} a_{i} y_{i} = 0 \end{aligned} \begin{aligned} w^{*} & = \sum_{i = 1}^{N} a_{i}^{*} y_{i} x_{i} \\ b^{*} & = y_{j} - \sum_{i = 1}^{N} a_{i}^{*} y_{i} (x_{i} \cdot x_{j}) \end{aligned}

将以上结果带入

L (w, b, a)

会有：

现在的待优化函数变为：

\begin{aligned} max_{a_{i} \geq 0} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} a_{i} a_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} a_{i} \\ s . t . \sum_{i = 1}^{N} a_{i} y_{i} = 0 \end{aligned}

只要求解对偶问题得到

a^{*}

，然后根据 KKT 条件得到

w^{*}, b^{*}

就可以完美的解得原始问题的最优解了。

+++
线性可分支持向量机学习算法
输入：线性可分数据集 ${(x_{i}, y_{i})}_{i = 1}^{N}$
1. 构造约束最优化问题：

\begin{aligned} max_{a_{i} \geq 0} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} a_{i} a_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} a_{i} \\ s . t . \sum_{i = 1}^{N} a_{i} y_{i} = 0 \end{aligned}

2. 求解得到

a^{*} = (a_{1}^{*}, a_{2}^{*}, \dots, a_{N}^{*})^{T}

，求解一般采用SMO算法；　　
3. 根据之前的KKT 条件，

a^{*}

求得

w^{*}, b^{*}

，首先选择

a_{j}^{*} > 0

的支持向量

(x j, y j)

；

\begin{aligned} w^{*} & = \sum_{i = 1}^{N} a_{i}^{*} y_{i} x_{i} \\ b^{*} & = y_{j} - \sum_{i = 1}^{N} a_{i}^{*} y_{i} (x_{i} \cdot x_{j}) \end{aligned}

4. 求得超平面

w^{*} \cdot x + b^{*} = 0

, 对于新的观测数据

x

根据

f (x) = s i g n (w^{*} \cdot x + b^{*})

判断其类别

y

软间隔

给定数据集 ${(x_{i}, y_{i})}_{i = 1}^{N}$ ，当样本数据大部分为线性可分的，存在少量异常值使得数据线性不可分，或者导致分离超平面被挤压，可以通过一些方法仍然按照线性可分的方式处理，异常值的情况如下图所示：核方法
以上情况意味着某些样本点的函数间隔并不满足大于 1 的要求。为了解决这个问题，为每个样本引入一个松弛变量 $ξ_{i} \geq 0$ , 使得函数间隔可以小于 1，优化目标改成如下：

\begin{aligned} min_{w, b, ξ} \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{N} ξ_{i} \\ s . t . - y_{i} (w \cdot x_{i} + b) - ξ_{i} + 1 \leq 0, i = 1, 2, . . ., N \\ - ξ_{i} \leq 0, i = 1, 2, . . ., N \end{aligned}

这里

C > 0

叫做惩罚参数，与上面优化方法相似，得到的解是

\begin{aligned} max_{a} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} a_{i} a_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} a_{i} \\ s . t . 0 \leq a_{i} \leq C, i = 1, 2, \dots, N \\ \sum_{i = 1}^{N} a_{i} y_{i} = 0, i = 1, 2, \dots, N \end{aligned}

带有异常值的线性可分 SVM 的算法：
输入：线性可分数据集

{(x_{i}, y_{i})}_{i = 1}^{N}

，数据集中伴有异常值
1. 构造约束最优化问题：

\begin{aligned} min_{w, b, ξ} \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{N} ξ_{i} \\ s . t . - y_{i} (w \cdot x_{i} + b) - ξ_{i} + 1 \leq 0, i = 1, 2, . . ., N \\ - ξ_{i} \leq 0, i = 1, 2, . . ., N \end{aligned}

2. 求解得到

a^{*} = (a_{1}^{*}, a_{2}^{*}, \dots, a_{N}^{*})^{T}

，求解一般采用SMO算法
3. 根据之前的KKT 条件，

a^{*}

求得

w^{*}, b^{*}

，首先选择

0 < a_{j}^{*} < C

的分量

\begin{aligned} w^{*} = \sum_{i = 1}^{N} a_{i}^{*} y_{i} x_{i} \\ b^{*} = y_{j} - \sum_{i = 1}^{N} y_{i} a_{i}^{*} (x_{i} \cdot x_{j}) \end{aligned}

4. 求得超平面

w^{*} \cdot x + b^{*} = 0

, 对于新的观测数据

x

根据

f (x) = s i g n (w^{*} \cdot x + b^{*})

判断其类别

y

核方法(Kernel Method)

核方法是一种很巧妙的方法，既可以将特征映射到较高的维度，又可以地利用了 SVM 的内积运算避免了维度计算量的爆炸。最后的最优化问题与硬间隔优化问题相似，只要将两个样本的内积改为两个样本的核函数即可 (kernel substitution)

\begin{aligned} min_{a} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} a_{i} a_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} a_{i} \\ s . t . 0 \leq a_{i} \leq C, i = 1, 2, \dots, N \\ \sum_{i = 1}^{N} a_{i} y_{i} = 0, i = 1, 2, \dots, N \end{aligned}

核函数一个正式定义：
设

χ

为输入空间，

ω

为特征空间，如果存在一个

χ

到

ω

的映射

ϕ (x) : χ \to ω

，对所有的

x, z \in χ

，函数

K (x, z)

满足

K (x, z) = ϕ (x) \cdot ϕ (z)

,则称

ϕ (x)

为输入空间到特征空间的映射函数，

K (x, z)

为核函数。

给定核函数 $K (x, z)$ ，即可用求解线性 SVM 的方法来求解非线性问题，核技巧的好处在于不需要显式的定义特征空间与映射函数，只需要选择一个合适的核函数即可。

具体核函数的用法参考核函数