背景


感知机
感知机(preceptron)是线性分类的二分类模型,属于硬分类。输入为实例的特征向量,输出为实例的类别,分别用 1 和 -1 表示。感知机将输入空间(特征空间)中的实例划分为正负两类分离的超平面,旨在求出将训练集进行线性划分的超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得最优解。

n个p维样本集{xi,yi} ,yi = ωTx 且xi∈ Rp , ωi∈ Rp
模型:
f(ω) = sign(ωTx ),当 ωTxi > 0 ,yi = +1 ,否则yi = -1,联立可得正确被分类的样本点满足
yiωTxi>0(1)
损失函数:
假设误分类点的集合为 M
L(ω)=i=1∑m−yiωTxi,xi∈M(2)
随机梯度下降法:
Δ=∂ω∂L=−i=1∑myix
ωt+1⟸ωt−λΔ
通过迭代可以使损失函数不断减小,直到为 0.
当训练数据集线性可分的时候,感知机学习算法是收敛的,并且存在无穷多个解,解会由于不同的初值或不同的迭代顺序不同而有所不同。
逻辑回归
Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic 回归是在上面感知机基础上再加一层,它要找到分类概率 P(Y=1) 与输入向量 x 的直接关系(条件概率),然后通过比较概率值来判断类别。
数据集:同感知机一样
本质:假设数据服从这个分布,然后使用极大似然估计做参数的估计。
**函数:Logistic 分布(一种连续型的概率分布)
F(X)=P(X≤x)=1+e−γ(x−μ)1
其概率密度函数为f(x)
f(x)=F′(X)=γ(1+e−γ(x−μ))2e−γ(x−μ)
其中, μ表示位置参数,γ 为形状参数

这里使用的**函数是其特殊状态sigmoid函数,即 μ = 0、γ = 1.
条件概率P(Y=1|X):对于二分类问题,设+1表示正例,-1表示反例。我们用条件概率P(Y=1|X)来拟合样本点被分类到正例的概率。由于ωTx的范围为R,需要将其映射到(0,1),使用sigmoid函数正合适,因为其不仅可以正确映射,而且连续可微。
P(y=1∣x)=p1=1+e−ωTx1
P(y=0∣x)=p0=1−p1=1+eωTx1(3)
In1−p1p1=ωTx,其中1−p1p1叫几率,In1−p1p1叫对数几率(4)
输出 Y=1 的对数几率是由输入 x 的线性函数表示的模型,这就是逻辑回归模型。当ωTx的值越接近正无穷, In 1−p1p1 概率值也就越接近 1。因此逻辑回归的思路是,先拟合决策边界(不局限于线性,还可以是多项式),再建立这个边界与分类的概率联系,从而得到了二分类情况下的概率。
损失函数(似然函数): L(ω)
L(ω)=i=1∏np1yip01−yi
方便计算,转为对数似然函数:
L(ω)=Ini=1∏np1yip01−yi=i=1∑n[yiIn(p1)+(1−yi)In(1−p1)]=i=1∑n[yiIn1−p1p1+In(1−p1)]由式(3)(4)可得L(ω)=i=1∑n[ωTxi−In(1+eωTxi)](5)
求解ω: 随机梯度下降法
将式(5)的最大对数似然函数转为最小损失函数
L(ω)=−i=1∑n[ωTxi−In(1+eωTxi)](5)
Δi=∂ωi∂L=(p1−yi)xi
迭代更新
ωit+1=ωit−λΔi=ωit−λ(p1−yi)xi
知道达到限定条件就可停止迭代。
逻辑回归正则化
拉普拉斯分布
x-Laplace(μ,λ),其中,μ 是位置参数,λ 是尺度参数。概率密度函数如下:
f(x)=2λ1e−λ∣x−μ∣
性质:
- E(x) = μ
- D(x) = 2λ2
- 关于 μ对称,且在该点达到极大值1/2λ ,即是它的众数。 越小曲线越陡, 越大曲线越平坦.
下面给出μ= 0,λ = 0.5的图像

L1正则化
相当于为模型添加了这样一个先验知识:ω 服从零均值拉普拉斯分布。
f(ω∣λ;μ=0)=2λ1e−λ∣ω−μ∣=2λ1e−λ∣ω∣
损失函数(似然函数): L(ω)
L(ω)=i=1∏np1yip01−yij=1∏p2λ1e−λ∣ωj∣
目标函数:
L(ω)=−InL(ω)=−i=1∑n[yiIn(p1)+(1−yi)In(1−p1)]+2λ21∣∣ω∣∣1
总结: 为模型增加了“模型参数服从零均值拉普拉斯分布”这一先验知识⟹原始损失函数的后面加上了 L1 正则
L2正则化
相当于为模型添加了这样一个先验知识:w 服从零均值正态分布。
f(ω∣μ=0;σ)=2πσ1e2σ2−(ω)2
损失函数(似然函数): L(ω)
L(ω)=i=1∏np1yip01−yij=1∏p2πσ1e2σ2−(ωj)2
目标函数:
L(ω)=−InL(ω)=−InL(ω)=−i=1∑n[yiIn(p1)+(1−yi)In(1−p1)]+2σ21∣∣ω∣∣2
总结: 为模型增加了“模型参数服从零均值正态分布”这一先验知识⟹原始损失函数的后面加上了 L2正则
L1、L2总结
L1 正则化增加了所有权重 w 参数的绝对值之和,逼迫更多 w 为零,也就是变稀疏,从而实现特征的自动选择(把无用的特征对应的权重置为 0)。
L2 正则化中增加所有权重 w 参数的平方之和,逼迫所有 w 尽可能趋向零但不为零,降低模型的复杂度。