线性分类(1) - 爱码网

背景

线性分类(1)

感知机

感知机(preceptron)是线性分类的二分类模型，属于硬分类。输入为实例的特征向量，输出为实例的类别，分别用 1 和 -1 表示。感知机将输入空间(特征空间)中的实例划分为正负两类分离的超平面，旨在求出将训练集进行线性划分的超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得最优解。

线性分类(1)

n个p维样本集{x_i,y_i} ，y_i = $\omega$ ^Tx 且x_i $\in$ R^p ， $\omega$ _i $\in$ R^p

模型：
f( $\omega$ ) = sign( $\omega$ ^Tx )，当 $\omega$ ^Tx_i > 0 ,y_i = +1 ,否则y_i = -1，联立可得正确被分类的样本点满足
$y_i \omega^Tx_i > 0\tag{1}$
损失函数：
假设误分类点的集合为 M
$L(\omega) = \sum_{i=1}^m -y_i\omega^Tx_i,x_i \in M\tag{2}$
随机梯度下降法：
$\Delta = \frac{\partial L}{\partial \omega} = -\sum_{i=1}^my_ix$
$\omega^{t+1} \Longleftarrow \omega^{t} - \lambda \Delta$
通过迭代可以使损失函数不断减小，直到为 0.
当训练数据集线性可分的时候，感知机学习算法是收敛的，并且存在无穷多个解，解会由于不同的初值或不同的迭代顺序不同而有所不同。

逻辑回归

Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类。Logistic 回归是在上面感知机基础上再加一层，它要找到分类概率 P(Y=1) 与输入向量 x 的直接关系（条件概率），然后通过比较概率值来判断类别。

数据集：同感知机一样

本质：假设数据服从这个分布，然后使用极大似然估计做参数的估计。

**函数：Logistic 分布（一种连续型的概率分布）
$F(X) = P(X \leq x) = \frac{1}{1+e^{-\frac{(x-\mu)}{\gamma}}}$
其概率密度函数为f(x)
$f(x) = F\prime(X) = \frac{e^{-\frac{(x-\mu)}{\gamma}}}{\gamma(1+e^{-\frac{(x-\mu)}{\gamma}})^2}$
其中， $\mu$ 表示位置参数， $\gamma$ 为形状参数

这里使用的**函数是其特殊状态sigmoid函数，即 $\mu$ = 0、 $\gamma$ = 1.

条件概率P（Y=1|X）：对于二分类问题，设+1表示正例，-1表示反例。我们用条件概率P（Y=1|X）来拟合样本点被分类到正例的概率。由于 $\omega$ ^Tx的范围为R，需要将其映射到（0，1），使用sigmoid函数正合适，因为其不仅可以正确映射，而且连续可微。
$P（y=1|x） = p_1 = \frac{1}{1+e^{-\omega^Tx}}$
$P（y=0|x） = p_0 = 1- p_1 = \frac{1}{1+e^{\omega^Tx}} \tag{3}$
$In \frac{p_1}{1-p_1} = \omega^Tx,其中\frac{p_1}{1-p_1}叫几率，In \frac{p_1}{1-p_1}叫对数几率 \tag{4}$
输出 Y=1 的对数几率是由输入 x 的线性函数表示的模型，这就是逻辑回归模型。当 $\omega$ ^Tx的值越接近正无穷， In $\frac{p_1}{1-p_1}$ 概率值也就越接近 1。因此逻辑回归的思路是，先拟合决策边界(不局限于线性，还可以是多项式)，再建立这个边界与分类的概率联系，从而得到了二分类情况下的概率。

损失函数（似然函数）： L( $\omega$ )
$L(\omega) = \prod_{i=1}^n p_1^{y_i} p_0^{1-y_i}$
方便计算，转为对数似然函数：
$L(\omega) =In \prod_{i=1}^n p_1^{y_i} p_0^{1-y_i} \\ =\sum_{i=1}^n [y_iIn(p_1)+ (1-y_i)In(1-p_1)] \\ =\sum_{i=1}^n [y_i In\frac{ p_1}{1-p_1} + In(1-p_1) ]\\ 由式（3）（4）可得 \\ L(\omega)=\sum_{i=1}^n[\omega^Tx_i - In(1+e^{\omega^Tx_i}) ] \tag{5}$

求解 $\omega$ ： 随机梯度下降法
将式（5）的最大对数似然函数转为最小损失函数
$L(\omega)= -\sum_{i=1}^n[\omega^Tx_i - In(1+e^{\omega^Tx_i}) ] \tag{5}$
$\Delta_i = \frac{\partial L}{\partial \omega_i} = (p_1-y_i)x_i$
迭代更新
$\omega^{t+1}_i = \omega^t_i - \lambda \Delta_i = \omega^t_i - \lambda (p_1-y_i)x_i$
知道达到限定条件就可停止迭代。

逻辑回归正则化

拉普拉斯分布

x-Laplace（μ, $\lambda$ )，其中，μ 是位置参数， $\lambda$ 是尺度参数。概率密度函数如下：
$f(x) = \frac{1}{2\lambda}e^{-\frac{|x-\mu|}{\lambda}}$

性质：

E(x) = $\mu$
D(x) = 2 $\lambda$ ²
关于 μ对称，且在该点达到极大值1/2 $\lambda$ ，即是它的众数。越小曲线越陡，越大曲线越平坦.

下面给出μ= 0， $\lambda$ = 0.5的图像
线性分类(1)

L1正则化

相当于为模型添加了这样一个先验知识： $\omega$ 服从零均值拉普拉斯分布。
$f(\omega|\lambda;\mu=0) = \frac{1}{2\lambda}e^{-\frac{|\omega-\mu|}{\lambda}} = \frac{1}{2\lambda}e^{-\frac{|\omega|}{\lambda}}$

损失函数（似然函数）： L( $\omega$ )
$L(\omega) = \prod_{i=1}^n p_1^{y_i} p_0^{1-y_i} \prod_{j=1}^p \frac{1}{2\lambda}e^{-\frac{|\omega_j|}{\lambda}}$

目标函数：
$L(\omega) = -In L(\omega) = -\sum_{i=1}^n [y_iIn(p_1)+ (1-y_i)In(1-p_1)] + \frac{1}{2\lambda^2} ||\omega||_1$

总结： 为模型增加了“模型参数服从零均值拉普拉斯分布”这一先验知识 $\Longrightarrow$ 原始损失函数的后面加上了 L1 正则

L2正则化

相当于为模型添加了这样一个先验知识：w 服从零均值正态分布。
$f(\omega|\mu=0;\sigma) = \frac{ 1}{ \sqrt{ 2\pi } \sigma} e^{\frac{- (\omega)^2}{2\sigma^2}}$

损失函数（似然函数）： L( $\omega$ )
$L(\omega) = \prod_{i=1}^n p_1^{y_i} p_0^{1-y_i} \prod_{j=1}^p \frac{ 1}{ \sqrt{ 2\pi } \sigma} e^{\frac{- (\omega_j)^2}{2\sigma^2}}$

目标函数：
$L(\omega) = -In L(\omega) = -In L(\omega) = -\sum_{i=1}^n [y_iIn(p_1)+ (1-y_i)In(1-p_1)] + \frac{1}{2\sigma^2} ||\omega||_2$

总结： 为模型增加了“模型参数服从零均值正态分布”这一先验知识 $\Longrightarrow$ 原始损失函数的后面加上了 L2正则

L1、L2总结

L1 正则化增加了所有权重 w 参数的绝对值之和，逼迫更多 w 为零，也就是变稀疏，从而实现特征的自动选择（把无用的特征对应的权重置为 0）。

L2 正则化中增加所有权重 w 参数的平方之和，逼迫所有 w 尽可能趋向零但不为零，降低模型的复杂度。

目录

背景

感知机

逻辑回归

逻辑回归正则化

拉普拉斯分布

L1正则化

L2正则化

L1、L2总结