1.贝叶斯决策

条件概率:9.朴素贝叶斯到贝叶斯网

ps:联想下条件熵,是对应的减法,而条件概率对应除法。

全概率公式:9.朴素贝叶斯到贝叶斯网

贝叶斯公式:9.朴素贝叶斯到贝叶斯网

ps:后验概率:9.朴素贝叶斯到贝叶斯网,先验概率:9.朴素贝叶斯到贝叶斯网,似然(条件)概率:9.朴素贝叶斯到贝叶斯网

接下来构建贝叶斯分类器,计算给定样本A求属于B类的概率(后验概率)。

ps:先验概率,统计样本的标签,当样本数量足够多时,可用频率来估计概率,

ps:似然概率,需要对所有特征属性A进行求解,但是由于特征之间依赖性很多也很复杂,概率很难直接求出。

2.朴素贝叶斯的引出

假设样本的所有特征互相独立,还认为每个特征的权重都相等。

似然概率:9.朴素贝叶斯到贝叶斯网,就变为了9.朴素贝叶斯到贝叶斯网

ps:通过一个假设条件处理了似然概率无法求出的问题。

常见问题:

1.连乘的小数有可能下溢,通过取log对值域进行一个变换即可。

2.当连乘中有一项为0时,那么这整个结果都为零,可以通过加入拉普拉斯平滑,让为0项不为零。

9.朴素贝叶斯到贝叶斯网,注意N为样本属性数目(分子分母都变使概率加和为1),n为该类别的样本数,n1为第一个词出现的次数!

3.贝叶斯网的引出

在朴素贝叶斯中由于假设性太强,在这里运用贝叶斯网可以对特征之间的依赖性做一个优化,所以就引出了这一网络。根据是否条件独立来绘制一个有向无环图(DAG)!

ps:对朴素贝叶斯的优化,提出了贝叶斯网络。

ps:注意贝叶斯网是一个有向无环图。

ps:通过这个网结构,计算贝叶斯的概率也可以简化很多。

全连接贝叶斯网络(每一对节点之间都有连接):

9.朴素贝叶斯到贝叶斯网

推广到K个节点的全连接贝叶斯网络:

9.朴素贝叶斯到贝叶斯网

ps:进行二分的方式进行,每次只处理一个变量而把其余变量当成一个整体来看待。

计算量:每个条件概率的依赖项都假设服从两点分布那么就是0/1,那么计算量是多少?

9.朴素贝叶斯到贝叶斯网

一个正常的贝叶斯网络:实际上有些边是缺失的

一个癌症的例子:

9.朴素贝叶斯到贝叶斯网

一种特殊的贝叶斯网络:马尔科夫模型,就是t时刻的状态只跟t-1时刻的状态有关,而与其他时刻的状态无关,独立。

通过贝叶斯网络判定条件独立-1(tail-tail):

9.朴素贝叶斯到贝叶斯网

结论:在c给定的条件下,阻断了a和b的联合概率,使a和b独立!

通过贝叶斯网络判定条件独立-2(head-tail):

9.朴素贝叶斯到贝叶斯网

结论:在c给定的条件下,a,b被阻断(blocked),是独立的。

通过贝叶斯网络判定条件独立-3(head-head):

9.朴素贝叶斯到贝叶斯网

9.朴素贝叶斯到贝叶斯网

结论:不管在给不给定c的情况下,a和b都独立

利用最大权生成树构建贝叶斯网络:

首先介绍互信息(信息增益)的概念:两个节点表达信息的交集 (相交的部分)就叫做互信息。

9.朴素贝叶斯到贝叶斯网

ps:互信息等价于信息增益。

首先计算任意两个节点之间的互信息(依赖程度的一种度量)当做权值,对这些边进行从大到小排序放到队列里,每次对给节点加互信息最大的边,如果加入某条边会构成环那么就舍弃,继续加入其他边,直到队列为空。

ps:判断边是否有环可以通过并查集来进行处理。

ps:借鉴最小生成树的方式类比出了最大生成树的生成方式。

相关文章: