为什么需要半朴素贝叶斯分类器
1:后验概率
2:属性条件独立性假设在现实任务中往往很难成立。
半朴素贝叶斯分类器的基本思想
适当考虑一部分属性之间的相互依赖信息,从而既不需要进行联合概率计算,又不至于彻底忽略比较强的属性依赖关系。
常用策略_”独依赖估计”
方法:假设每个属性在类别之外最多仅依赖于一个其他属性
其中
不同的独依赖分类器
NB
就是朴素贝叶斯分类器
SPODE
假设所有的属性都依赖于同一个属性,称为“超父”,然后通过交叉验证的方式来确定超父属性。由此产生了SPODE(Super-Parent ODE)方法。
TAN
TAN(Tree Augmented naive Bayes)在最大带权生成树(maximum weighted spanning tree)算法的基础上,通过下面的步骤将属性间的依赖关系简化为如图所示的树形结构:
1. 计算任意两个属性之间的条件互信息(conditional mutual information)
2. 以属性为结点构建完全图,任意两个结点之间的边权重重设为
3. 构建此完全图的最大带权生成树,挑选根变量,将边置为有向边
4. 加入类别结点
条件互信息
AODE
AODE(Averaged One-Dependent Estimator)是一种基于集成学习机制、更为强大的独依赖分类器,与SPODE通过模型选择确定超父属性不同,AODE尝试将每个属性作为超父来构建SPODE。然后将这些具有足够训练数据支持的SPODE集成起来作为最终结果,即:
其中
其中