ML笔记——支持向量机（SVM)

想法

对于任意一个数据映射到多维空间，如果是不同的数据集之间必定存在间距，此时能用一个超平面就可以将其分开且间距最大

数学表达

处理线性问题
建设函数：
$h_{θ} (x) = {\begin{matrix} 1 & Θ^{T} X \geq 0 \\ 0 & Θ^{T} X < 0 \end{matrix}$
代价函数：
$J (θ) = C \sum_{i = 1}^{m} [y^{i} C o s t_{1} (Θ^{T} X^{i}) + (1 - y^{i}) C o s t_{0} (Θ^{T} X^{i})] + \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2}$
其中的
$m$ 表示训练数据数量
$n$ 表示 $n$ 维空间
$Θ$ 表示关于 $θ$ 的 $n$ 维列向量
$C o s t_{1} (Θ^{T} X^{i}) = C o s t_{1} (z) = {\begin{matrix} - z + 1 & z < 1 \\ 0 & z \geq 1 \end{matrix}$
$C o s t_{2} (Θ^{T} X^{i}) = C o s t_{2} (z) = {\begin{matrix} 0 & z \leq - 1 \\ z + 1 & z > - 1 \end{matrix}$
通过求解 $min_{θ} J (θ)$ 得到合适的 $θ$ 值
采用核函数处理非线性问题
$f = θ_{0} + θ_{1} f_{1} + \dots + θ_{m} f_{m}$
$f_{j} = k (x, l^{j}) = \exp (- \frac{∥ x - l^{j} ∥^{2}}{2 σ^{2}})$
其中的
$l^{j}$ 表示第 $j$ 个标记点，可以选取第 $j$ 个训练数据 $x^{j}$ 作为标记点
$x$ 表示某一组训练数据
$k (x, l^{j})$ 表示训练数据 $x$ 到标记点 $l^{j}$ 的偏差程度
$∥ x - l^{j} ∥$ 表示向量的长度
对于第i组测试数据
$f_{j}^{i} = k (x^{i}, l^{j}) = \exp (- \frac{∥ x^{i} - l^{j} ∥^{2}}{2 σ^{2}})$
并将其写成向量形式，
$f^{i} = [\begin{matrix} f_{0}^{i} \\ f_{1}^{i} \\ ⋮ \\ f_{m}^{i} \end{matrix}]$
其中的
$f_{0}^{i} = 1$
那么代价函数
$J (θ) = C \sum_{i = 1}^{m} [y^{i} C o s t_{1} (Θ^{T} f^{i}) + (1 - y^{i}) C o s t_{0} (Θ^{T} f^{i})] + \frac{1}{2} \sum_{j = 1}^{m} θ_{j}^{2}$
通过求解 $min_{θ} J (θ)$ 得到合适的 $θ$

胡思乱想时刻

关于逻辑回归和支持向量机的区别
逻辑回归：使用Sigmoid函数的结果，以概率输出；同时，作为分类的依据就是与Sigmoid函数中的特殊点 $(0, 0.5)$ 做比较，也就是当 $y = 1$ 时， $Θ^{T} X \geq 0$ ；当 $y = 0$ 时， $Θ^{T} X < 0$ 。选取的 $θ$ 值并没有考虑两个类群之间的间距
支持向量机：输出的结果只有 $0, 1$ 两个值；求解 $θ$ 过程中选取的依据是，当 $y = 1$ 时， $Θ^{T} X \geq 1$ ；当 $y = 0$ 时， $Θ^{T} X \leq - 1$ 。也就是选取的 $θ$ 值使得两个不同的类群有一定的距离（可以通过数学证明）
如何保证是最大划分？
对于假设函数
$Θ^{T} X = θ_{0} x_{0} + θ_{1} x_{1} + \dots + θ_{n} x_{n} = \vec{θ} \cdot \vec{x} = p \cdot ∥ θ ∥ \geq 0$
其中的
$p$ 表示向量 $\vec{x}$ 在向量 $\vec{θ}$ 方向上的投影
$θ_{0} = 0$
由于 $\vec{θ} \cdot \vec{x}$ 的结果与 $0$ 做比较，则向量 $\vec{θ}$ 与向量 $\vec{x}$ 相互垂直，且向量 $\vec{x}$ 过原点
对于代价函数
$\frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2} = \frac{1}{2} {(\sqrt{θ_{1}^{2} + θ_{2}^{2} + \dots + θ_{n}^{2}})}^{2} = \frac{1}{2} ∥ θ ∥^{2}$
则
$J (θ) = C \sum_{i = 1}^{m} [y^{i} C o s t_{1} (p \cdot ∥ θ ∥) + (1 - y^{i}) C o s t_{0} (p \cdot ∥ θ ∥)] + \frac{1}{2} ∥ θ ∥^{2}$
$min_{θ} J (θ) = min_{θ} C \sum_{i = 1}^{m} [y^{i} C o s t_{1} (p \cdot ∥ θ ∥) + (1 - y^{i}) C o s t_{0} (p \cdot ∥ θ ∥)] + min_{θ} \frac{1}{2} ∥ θ ∥^{2}$
如下图（紫色直线为决策边界）

此时的 $p_{1}, p_{2}$ 都较短，要想满足训练时 $Θ^{T} X \geq 1$ 或 $Θ^{T} X \leq - 1$ 的情况，则需要使 $θ$ 较长，与 $min_{θ} \frac{1}{2} ∥ θ ∥^{2}$ 矛盾
又如下图（紫色直线为决策边界）

此时的 $p_{1}, p_{2}$ 都较长，那么 $θ$ 的值就可以略短一些
也就是当 $p$ 的值较大， $θ$ 值较短时，能更好的满足 $min_{θ} J (θ)$
再反观 $p$ 所表示的几何意义时，可以发现 $p$ 不仅仅是投影，还表示离决策边界的距离，所以通过对 $min_{θ} J (θ)$ 的求解可以得到更宽松的决策边界
逻辑回归中的正则化与支持向量机中的正则化
正则化通常时引入一个较大的常数，并与式子中待控制的部分相乘，在求解最小值时，使得待控制的部分趋于 $0$
逻辑回归中的正则化是为了简化训练模型
支持向量机的正则化是为了在有一定区分度的情况下，使得 $θ$ 值较小，从而获得更大的间距
核函数相关
核函数是一种将低维投到高维的一种方式，对于二维空间内无法用直线分割的数据集，可以通过将这些数据投到三维空间内用平面进行分割
如下图

选取 $x O y$ 平面中的 $(3, 2)$ 作为标记点并用高斯核函数，将平面上 $C$ 点投到三维空间中的 $B$
关于逻辑回归中不适合用核函数，可能是逻辑回归中的代价函数使用的是非线性函数（ $\log (h_{θ} (x))$ ）将比 $C o s t (Θ^{T} X)$ 产生更大的计算量