糖果选择
在孟买郊区,住着一位老奶奶,她对生活的定量看法为她赢得了“统计奶奶”的绰号。她独自住在一座巨大的豪宅里,在那里她练习可靠的统计分析,不受大众媒体和所谓的权威人士所兜售的毫无希望的有缺陷的偏见的影响。
每年她的生日,她的全家都会来看她,并留在豪宅。儿子,女儿,他们的配偶,她的孙子。每年都会是一场盛大的狂欢,大张旗鼓。但奶奶最喜欢的是见到她的孙子们并和他们一起玩。她总共有十个孙子,都在 10 岁左右,她亲切地称他们为“随机变量”。
每年,奶奶都会给每个孩子一个糖果。奶奶有一个大盒子,里面装满了十种不同的糖果。她会给每个孩子一颗糖果,因为她不想破坏他们的牙齿。但是,由于她非常爱孩子们,所以她费了很大力气来决定给哪个孩子送哪个糖果,这样才能最大限度地提高他们的总体幸福感(她称之为最大似然估计)。
但这对奶奶来说并不是一件容易的事。她知道每种糖果都有一定的概率让孩子开心。对于不同的糖果类型和不同的孩子,这个概率是不同的。 Rakesh 更喜欢红色糖果而不是绿色糖果,而 Sheila 更喜欢橙色糖果。
10 个孩子对 10 种糖果都有不同的喜好。
此外,他们的偏好很大程度上取决于祖母不知道的外部因素(隐藏变量)。
如果 Sameer 在去豪宅的路上看到一座蓝色建筑,他会想要蓝色糖果,而 Sandeep 一直想要与他那天衬衫颜色相匹配的糖果。但最大的挑战是他们的幸福取决于其他孩子得到了什么糖果!如果 Rohan 得到一颗红糖,那么 Niyati 也会想要一颗红糖,其他任何事情都会让她在母亲的怀里哭泣(条件依赖)。 Sakshi 一直想要大多数孩子得到的东西(正相关),而如果没有其他人得到他收到的那种糖果, Tanmay 会最开心(负相关)。奶奶很早以前就得出结论,她的孙子孙女是完全相互依赖的。
对于奶奶来说,正确选择糖果在计算上是一项艰巨的任务。 要考虑的条件太多,她无法简化计算。每年在她生日之前,她都会花几天的时间来找出糖果的最佳分配,方法是一起为所有孩子列举所有糖果的配置(这是一项成倍增加的任务)。她年纪大了,任务越来越难。她过去常常觉得自己会死,然后才能找出让她的孩子们最快乐的糖果的最佳选择。
但是发生了一件有趣的事情。随着岁月的流逝,孩子们长大了,他们终于从十几岁的时候过去了,变成了独立的成年人。他们的选择变得越来越不依赖于彼此,并且更容易弄清楚每个人最喜欢的糖果是什么(他们都仍然喜欢糖果,还有奶奶)。
奶奶很快就意识到了这一点,她高兴地开始称它们为“独立随机变量”。对她来说,找出糖果的最佳选择要容易得多——她只需要一次想一个孩子,然后为每个孩子,为该孩子的 10 种糖果类型中的每一种分配一个幸福概率。然后她会为那个孩子挑选幸福概率最高的糖果,而不用担心她会给其他孩子分配什么。这是一个超级简单的任务,奶奶终于能做对了。
那一年,孩子们终于是最开心的一年,奶奶在百岁生日聚会上玩得很开心。在那一天之后的几个月,奶奶去世了,她的脸上挂着微笑,手里还攥着一本 Sheldon Ross。
要点:在统计建模中,具有相互依赖的随机变量使得很难找到每个变量的最优值分配,以使每个变量的累积概率最大化放。
您需要枚举所有可能的配置(变量数量呈指数增长)。但是,如果变量是独立的,则很容易挑选出使每个变量的概率最大化的单个分配,然后将各个分配组合起来以获得整个集合的配置。
在朴素贝叶斯中,您假设变量是独立的(即使它们实际上不是)。这简化了您的计算,事实证明,在许多情况下,它实际上给出的估计值与您从考虑变量之间的条件依赖关系的更(计算上)昂贵的模型中获得的估计值相当。
我没有在这个答案中包含任何数学,但希望这可以更容易地掌握朴素贝叶斯背后的概念,并自信地处理数学。 (维基百科页面是一个好的开始:朴素贝叶斯)。
为什么会“幼稚”?
朴素贝叶斯分类器假设 X|YX|Y 是正态分布的,XX 的任何分量之间的协方差为零。由于这对于任何实际问题都是完全不可信的假设,因此我们将其称为幼稚。
朴素贝叶斯会做出以下假设:
如果你喜欢泡菜,也喜欢冰淇淋,朴素贝叶斯会假设独立,给你一个泡菜冰淇淋,并认为你会喜欢它。
这可能根本不是真的。
有关数学示例,请参阅:https://www.analyticsvidhya.com/blog/2015/09/naive-bayes-explained/