背景

线性分类(1)
线性分类(1)

感知机

感知机(preceptron)是线性分类的二分类模型,属于硬分类。输入为实例的特征向量,输出为实例的类别,分别用 1 和 -1 表示。感知机将输入空间(特征空间)中的实例划分为正负两类分离的超平面,旨在求出将训练集进行线性划分的超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得最优解。

线性分类(1)

n个p维样本集{xi,yi} ,yi = ω\omegaTx 且xi\in Rpω\omegai\in Rp

模型
f(ω\omega) = sign(ω\omegaTx ),当 ω\omegaTxi > 0 ,yi = +1 ,否则yi = -1,联立可得正确被分类的样本点满足
yiωTxi>0(1)y_i \omega^Tx_i > 0\tag{1}
损失函数
假设误分类点的集合为 M
L(ω)=i=1myiωTxi,xiM(2)L(\omega) = \sum_{i=1}^m -y_i\omega^Tx_i,x_i \in M\tag{2}
随机梯度下降法:
Δ=Lω=i=1myix\Delta = \frac{\partial L}{\partial \omega} = -\sum_{i=1}^my_ix
ωt+1ωtλΔ\omega^{t+1} \Longleftarrow \omega^{t} - \lambda \Delta
通过迭代可以使损失函数不断减小,直到为 0.
当训练数据集线性可分的时候,感知机学习算法是收敛的,并且存在无穷多个解,解会由于不同的初值或不同的迭代顺序不同而有所不同。

逻辑回归

Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic 回归是在上面感知机基础上再加一层,它要找到分类概率 P(Y=1) 与输入向量 x 的直接关系(条件概率),然后通过比较概率值来判断类别。

数据集:同感知机一样

本质:假设数据服从这个分布,然后使用极大似然估计做参数的估计。

**函数:Logistic 分布(一种连续型的概率分布)
F(X)=P(Xx)=11+e(xμ)γF(X) = P(X \leq x) = \frac{1}{1+e^{-\frac{(x-\mu)}{\gamma}}}
其概率密度函数为f(x)
f(x)=F(X)=e(xμ)γγ(1+e(xμ)γ)2f(x) = F\prime(X) = \frac{e^{-\frac{(x-\mu)}{\gamma}}}{\gamma(1+e^{-\frac{(x-\mu)}{\gamma}})^2}
其中, μ\mu表示位置参数,γ\gamma 为形状参数
线性分类(1)
这里使用的**函数是其特殊状态sigmoid函数,即 μ\mu = 0、γ\gamma = 1.

条件概率P(Y=1|X):对于二分类问题,设+1表示正例,-1表示反例。我们用条件概率P(Y=1|X)来拟合样本点被分类到正例的概率。由于ω\omegaTx的范围为R,需要将其映射到(0,1),使用sigmoid函数正合适,因为其不仅可以正确映射,而且连续可微。
Py=1x=p1=11+eωTxP(y=1|x) = p_1 = \frac{1}{1+e^{-\omega^Tx}}
Py=0x=p0=1p1=11+eωTx(3)P(y=0|x) = p_0 = 1- p_1 = \frac{1}{1+e^{\omega^Tx}} \tag{3}
Inp11p1=ωTx,p11p1Inp11p1(4)In \frac{p_1}{1-p_1} = \omega^Tx,其中\frac{p_1}{1-p_1}叫几率,In \frac{p_1}{1-p_1}叫对数几率 \tag{4}
输出 Y=1 的对数几率是由输入 x 的线性函数表示的模型,这就是逻辑回归模型。当ω\omegaTx的值越接近正无穷, In p11p1\frac{p_1}{1-p_1} 概率值也就越接近 1。因此逻辑回归的思路是,先拟合决策边界(不局限于线性,还可以是多项式),再建立这个边界与分类的概率联系,从而得到了二分类情况下的概率。

损失函数(似然函数): L(ω\omega)
L(ω)=i=1np1yip01yiL(\omega) = \prod_{i=1}^n p_1^{y_i} p_0^{1-y_i}
方便计算,转为对数似然函数
L(ω)=Ini=1np1yip01yi=i=1n[yiIn(p1)+(1yi)In(1p1)]=i=1n[yiInp11p1+In(1p1)]34L(ω)=i=1n[ωTxiIn(1+eωTxi)](5)L(\omega) =In \prod_{i=1}^n p_1^{y_i} p_0^{1-y_i} \\ =\sum_{i=1}^n [y_iIn(p_1)+ (1-y_i)In(1-p_1)] \\ =\sum_{i=1}^n [y_i In\frac{ p_1}{1-p_1} + In(1-p_1) ]\\ 由式(3)(4)可得 \\ L(\omega)=\sum_{i=1}^n[\omega^Tx_i - In(1+e^{\omega^Tx_i}) ] \tag{5}

求解ω\omega 随机梯度下降法
将式(5)的最大对数似然函数转为最小损失函数
L(ω)=i=1n[ωTxiIn(1+eωTxi)](5)L(\omega)= -\sum_{i=1}^n[\omega^Tx_i - In(1+e^{\omega^Tx_i}) ] \tag{5}
Δi=Lωi=(p1yi)xi\Delta_i = \frac{\partial L}{\partial \omega_i} = (p_1-y_i)x_i
迭代更新
ωit+1=ωitλΔi=ωitλ(p1yi)xi\omega^{t+1}_i = \omega^t_i - \lambda \Delta_i = \omega^t_i - \lambda (p_1-y_i)x_i
知道达到限定条件就可停止迭代。

逻辑回归正则化

拉普拉斯分布

x-Laplace(μ,λ\lambda),其中,μ 是位置参数,λ\lambda 是尺度参数。概率密度函数如下:
f(x)=12λexμλf(x) = \frac{1}{2\lambda}e^{-\frac{|x-\mu|}{\lambda}}

性质:

  1. E(x) = μ\mu
  2. D(x) = 2λ\lambda2
  3. 关于 μ对称,且在该点达到极大值1/2λ\lambda ,即是它的众数。 越小曲线越陡, 越大曲线越平坦.

下面给出μ= 0,λ\lambda = 0.5的图像
线性分类(1)

L1正则化

相当于为模型添加了这样一个先验知识:ω\omega 服从零均值拉普拉斯分布。
f(ωλ;μ=0)=12λeωμλ=12λeωλf(\omega|\lambda;\mu=0) = \frac{1}{2\lambda}e^{-\frac{|\omega-\mu|}{\lambda}} = \frac{1}{2\lambda}e^{-\frac{|\omega|}{\lambda}}

损失函数(似然函数): L(ω\omega)
L(ω)=i=1np1yip01yij=1p12λeωjλL(\omega) = \prod_{i=1}^n p_1^{y_i} p_0^{1-y_i} \prod_{j=1}^p \frac{1}{2\lambda}e^{-\frac{|\omega_j|}{\lambda}}

目标函数:
L(ω)=InL(ω)=i=1n[yiIn(p1)+(1yi)In(1p1)]+12λ2ω1L(\omega) = -In L(\omega) = -\sum_{i=1}^n [y_iIn(p_1)+ (1-y_i)In(1-p_1)] + \frac{1}{2\lambda^2} ||\omega||_1

总结: 为模型增加了“模型参数服从零均值拉普拉斯分布”这一先验知识\Longrightarrow原始损失函数的后面加上了 L1 正则

L2正则化

相当于为模型添加了这样一个先验知识:w 服从零均值正态分布。
f(ωμ=0;σ)=12πσe(ω)22σ2f(\omega|\mu=0;\sigma) = \frac{ 1}{ \sqrt{ 2\pi } \sigma} e^{\frac{- (\omega)^2}{2\sigma^2}}

损失函数(似然函数): L(ω\omega)
L(ω)=i=1np1yip01yij=1p12πσe(ωj)22σ2L(\omega) = \prod_{i=1}^n p_1^{y_i} p_0^{1-y_i} \prod_{j=1}^p \frac{ 1}{ \sqrt{ 2\pi } \sigma} e^{\frac{- (\omega_j)^2}{2\sigma^2}}

目标函数:
L(ω)=InL(ω)=InL(ω)=i=1n[yiIn(p1)+(1yi)In(1p1)]+12σ2ω2L(\omega) = -In L(\omega) = -In L(\omega) = -\sum_{i=1}^n [y_iIn(p_1)+ (1-y_i)In(1-p_1)] + \frac{1}{2\sigma^2} ||\omega||_2

总结: 为模型增加了“模型参数服从零均值正态分布”这一先验知识\Longrightarrow原始损失函数的后面加上了 L2正则

L1、L2总结

L1 正则化增加了所有权重 w 参数的绝对值之和,逼迫更多 w 为零,也就是变稀疏,从而实现特征的自动选择(把无用的特征对应的权重置为 0)。

L2 正则化中增加所有权重 w 参数的平方之和,逼迫所有 w 尽可能趋向零但不为零,降低模型的复杂度。

相关文章:

  • 2021-08-14
  • 2021-08-13
  • 2022-01-04
  • 2021-07-12
  • 2021-12-04
  • 2022-01-10
  • 2021-11-11
猜你喜欢
  • 2021-09-08
  • 2021-05-31
  • 2022-02-25
  • 2022-02-12
相关资源
相似解决方案