【ML笔记】贝叶斯算法

一般地，贝叶斯算法可用于新闻分类，文本分类以及邮件分类

贝叶斯统计学方法 = 总体信息 + 样本信息 + 先验信息

总体信息：当前总体样本符合某种分布。比如抛硬币，二项分布。学生某一科的成绩符合正态分布
样本信息：通过抽样得到的部分样本的某种分布。
先验信息：抽样之前，有关推断问题中位置参数的一些信息，通常来源于经验或历史资料(比如让一个音乐家猜某歌曲的作者和让一个小学生猜某歌曲的作者，音乐家具有先验信息)

古典学派和贝叶斯学派的矛盾：是否承认先验知识

贝叶斯定理：
【ML笔记】贝叶斯算法
对公式的分析： 后验概率 = 先验概率 * 调整因子

如果 调整因子>1 ，意味着’先验概率’被增强，事件A的发生的可能性变大；
如果 调整因子=1 ，意味着B事件无助于判断事件A的可能性；
如果 调整因子<1 ，意味着"先验概率"被削弱，事件A的可能性变小

在邮件分类的应用中：

P(A)：是垃圾邮件的概率
P(B)：带有某特征的邮件的概率
P(A|B)：已知一封邮件具有某特征，该邮件为垃圾邮件的概率

朴素贝叶斯：

X1,X2,…,Xn之间相互独立，则
【ML笔记】贝叶斯算法

我们大脑中也是有贝叶斯算法的：
【ML笔记】贝叶斯算法
在Line1中，由于我们的大脑认识A、C，存在先验信息，因此我们会把Line1的图案当作字母“B”。而Line2中，由于两侧是12、14，我们的大脑会帮我们把图案理解为数字“13”。由于有了“样本信息”和“先验信息”，我们会将相同的图案理解为不同的含义。

词袋模型：不关心文本中句子的组成，不关心词语出现的顺序，只关心词语出现的次数。将不同长度的文章，转换成相同长度的向量

TF-IDF算法（Term Frequency-Inverse Document Frequency）：词频-逆文件频率，是一种用于资讯检索与资讯探勘的常用加权技术

提取词频，文章中出现最多的是“的、是、在”等对文章分类或搜索没有帮助的停用词
对一篇文章而言，“中国”“蜜蜂”“养殖”这些词的TF是一样的，然而作为文章的关键词，他们的权值却不一样。对于“蜜蜂”“养殖”等词而言，他们出现的领域比较少，基本可以确定文章的类型。然后“中国”一词范围过大，可以联系到很多的领域，比如中国经济，中国体育，中国人口等等，所以“蜜蜂”“养殖”对于一篇你文章的重要程度大于“中国”一词。
权重又叫做“逆文件频率”，他的大小与一个词的常见程度成反比。
字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降（预料库中越多，说明出现越普遍，没有很鲜明的特征区分文章的类别）。

【ML笔记】贝叶斯算法