MAP分类器
MAP分类器,即最大后验概率(Maximum posterior probability)分类器,基于贝叶斯规则,利用类的先验概率和观测似然概率,计算模式x属于类C的后验概率,进而进行分类判别。其后验概率公式为:$ p(C_i|x)=\frac{p(x|C_i)p(C_i)}{p(x)} $ 其中 \(p(C_i)\) 为类的先验概率, \(p(x|C_i)\) 为观测似然概率, \(p(x)\) 为所有类别样本x的边缘概率,其二分类决策边界为 \(p(x|C_1)p(C_i)-p(x|C_2)p(C_2)=0\) 在单维空间中通常有两条决策边界,高维空间则是复杂的非线性边界。
决策误差
- 概率误差为未选择的类的后验概率
- 平均概率误差: $$ p(error)=\frac{1}{N}\sum_{x\in{R_1}\cup{R_2}}p(error, x)=\sum_{x\in{R_1}\cup{R_2}}p(error|x)p(x) $$
高斯观测概率
- 单维高斯分布: $ p(x|C_k)=\frac{1}{\sqrt{2\pi}\sigma_k}e{-\frac{1}{2}(\frac{x-\mu_k}{\sigma_k})2} $
- 决策边界: $ (\frac{1}{\sigma_j2}-\frac{1}{\sigma_i2})x2-2(\frac{\mu_j}{\sigma_j2}-\frac{\mu_i}{\sigma_i2})x+\frac{\mu_j2}{\sigma_j2}-\frac{\mu_i2}{\sigma_i^2}-2ln(\frac{P(C_j)\sigma_j}{P(C_i)\sigma_i})=0 $
- 方差相等时倾向于选择先验概率较高的类,先验概率相等时倾向于选择方差较小的类。
贝叶斯分类器
在MAP分类器基础上,加入决策风险因素,成为贝叶斯分类器
决策风险和损失
- 定义当前决策动作相对于选择其他类别的风险程度为损失(loss),记决策动作为 \(\alpha_i\) 真值为 \(C_j\) 损失为 \(\lambda(\alpha_i|C_j)\) 简写为 \(\lambda_ij\)
- 损失是可学习参数
决策目标
- 贝叶斯分类器选择决策风险最小的类,即损失最小的类,对于 所有测试样本,贝叶斯分类器对每个测试样本选择损失最小的类,以达到期望损失最小
- 学习特征之间相关性比较困难,若假设特征之间IID,则应用链式法则,可得到朴素贝叶斯分类器: $$ P(C_i|x)=\prod_{k=1}p(x_k|C_i)P(C_i)/\sum_i\prod_{k=1}pp(x_k|C_i)P(C_i) $$
参数估计
最大似然估计
定义
先验概率估计
- 目标函数
- 估计
基于高斯分布的观测概率估计
- 估计方法
- 关于均值(无偏估计)
- 关于协方差
- 协方差修正
贝叶斯估计
定义
- 概率分布中待学习的参数????也可以当做随机变量
- 贝叶斯估计:给定参数????分布的先验概率以及训练样本,估计参数θ分布的后验概率
- 假设????服从一个概率分布:
- 该概率分布的先验概率已知:????(????)
- 先验概率反映了关于参数????的最初猜测及其不确定信息
方法
- 参数后验概率
- 高斯观测似然
- 参数后验概率估计
- 分析
- 贝叶斯估计能不断学习,它允许最初的、基于少量训练样本的、不太准的估计,随着训练样本的不断增加,可以串行的不断修正参数的估计值,从而达到该参数的期望真值
- 流程:
- 比最大似然估计复杂,但一般也比它强
无参数估计
- 常用:KNN、直方图技术、核密度估计
KNN
原理
优缺点
- 可以自适应的确定????相关的区域????的范围
- KNN概率密度估计不是连续函数
- 不是真正的概率密度表达,概率密度函数积分是 ∞ 而不是1。例如,在k=1时
直方图
原理
优缺点
-
固定区域????:减少由于噪声污染造成的估计误差。
-
不需要存储训练样本
-
固定区域????的位置:如果模式????落在相邻格子的交界区域,意味着当前格子不是以模式????为中心,导致统计和概率估计不准确
-
固定区域????的大小:缺乏概率估计的自适应能力,导致过于尖锐或平滑
双线性插值
带宽选择
核密度估计
原理
- 区域R的确定:以任意待估计模式????为中心、固定带宽ℎ,以此确定一个区域????
优缺点
- 以待估计模式????为中心、自适应确定区域????的位置(类似KNN)
- 使用所有训练样本,而不是基于第 ???? 个近邻点来估计概率密度,从而克服KNN估计存在的噪声影响
- 如果核函数是连续,则估计的概率密度函数也是连续的
- 与直方图估计相比,核密度估计不提前根据训练样本估计每个格子的统计值,所以它必须要存储所有训练样本
带宽选择
- 带宽ℎ决定了估计概率的平滑程度
- 因为给定的训练样本数量是有限的,所以要求根据这些训练样本估计出来的概率分布既能够符合这些训练样本,同时也要有一定预测能力,即也能估计未看见的模式