基本概念
生成模型
- 给定训练样本 $ {x_n} $ ,直接在输入空间内学习其概率密度函数 \(p(x)\)
- 优势:可以根据 \(p(x)\) 采样新的样本数据;可以检测出较低概率的数据,实现离群点检测。
- 劣势:如果是高维的x,需要大量训练样本才能准确的估计 \(p(x)\) ,否则会出现维度灾难问题。
判别模型
- 给定训练样本 $ {x_n} $ ,直接在输入空间内估计后验概率 \(p(C_i|x)\)
- 优势:快速直接,省去了耗时的高维观测似然估计
定义
- 如果判别模型f(x)是线性函数,则f(x)为线性判据
- 可以用于二类分类,决策边界是线性的;也可以用于多类分类,相邻两类之间的决策边界也是线性的
- 优势:计算量少,在学习和分类过程中,线性判据方法都比基于学习概率分布的方法计算量少
- 数学表达: $ f(x)=w^Tx+w_0 $
- 任意样本到决策边界的距离 $ r=\frac{f(x)}{||w||} $ ,可作为confidence score
学习方法
感知机
预处理
目标函数
梯度下降法学习
串行感知机
基本和并行感知机一样
收敛性和全局最优
- 如果训练样本是线性可分的,感知机(并行和串行)算法理论上收敛于一个解
- 只是保证算法会停止,但是最终结果不一定是全局最优