一般地,贝叶斯算法可用于新闻分类,文本分类以及邮件分类

贝叶斯统计学方法 = 总体信息 + 样本信息 + 先验信息

  • 总体信息:当前总体样本符合某种分布。比如抛硬币,二项分布。学生某一科的成绩符合正态分布
  • 样本信息:通过抽样得到的部分样本的某种分布。
  • 先验信息:抽样之前,有关推断问题中位置参数的一些信息,通常来源于经验或历史资料(比如让一个音乐家猜某歌曲的作者和让一个小学生猜某歌曲的作者,音乐家具有先验信息)

古典学派和贝叶斯学派的矛盾:是否承认先验知识

贝叶斯定理:
【ML笔记】贝叶斯算法
对公式的分析: 后验概率 = 先验概率 * 调整因子

  • 如果 调整因子>1 ,意味着’先验概率’被增强,事件A的发生的可能性变大;
  • 如果 调整因子=1 ,意味着B事件无助于判断事件A的可能性;
  • 如果 调整因子<1 ,意味着"先验概率"被削弱,事件A的可能性变小

在邮件分类的应用中:

  • P(A):是垃圾邮件的概率
  • P(B):带有某特征的邮件的概率
  • P(A|B):已知一封邮件具有某特征,该邮件为垃圾邮件的概率

朴素贝叶斯:

X1,X2,…,Xn之间相互独立,则
【ML笔记】贝叶斯算法

我们大脑中也是有贝叶斯算法的:
【ML笔记】贝叶斯算法
在Line1中,由于我们的大脑认识A、C,存在先验信息,因此我们会把Line1的图案当作字母“B”。而Line2中,由于两侧是12、14,我们的大脑会帮我们把图案理解为数字“13”。由于有了“样本信息”和“先验信息”,我们会将相同的图案理解为不同的含义。

词袋模型:不关心文本中句子的组成,不关心词语出现的顺序,只关心词语出现的次数。将不同长度的文章,转换成相同长度的向量

TF-IDF算法(Term Frequency-Inverse Document Frequency):词频-逆文件频率,是一种用于资讯检索与资讯探勘的常用加权技术

  1. 提取词频,文章中出现最多的是“的、是、在”等对文章分类或搜索没有帮助的停用词
  2. 对一篇文章而言,“中国”“蜜蜂”“养殖”这些词的TF是一样的,然而作为文章的关键词,他们的权值却不一样。对于“蜜蜂”“养殖”等词而言,他们出现的领域比较少,基本可以确定文章的类型。然后“中国”一词范围过大,可以联系到很多的领域,比如中国经济,中国体育,中国人口等等,所以“蜜蜂”“养殖”对于一篇你文章的重要程度大于“中国”一词。
  3. 权重又叫做“逆文件频率”,他的大小与一个词的常见程度成反比。
  4. 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降(预料库中越多,说明出现越普遍,没有很鲜明的特征区分文章的类别)。

【ML笔记】贝叶斯算法
【ML笔记】贝叶斯算法

相关文章: