对于深度学习和机器学习工程师来说,在世界上所有的概率模型中,高斯分布模型是最突出的。即使你从未参与过AI项目,你也很有可能遇到过高斯模型。高斯分布模型,通常以其标志性的钟形曲线来识别,也称为正态分布,之所以如此流行,主要有三个原因。
高斯概率分布函数的数学公式
自然界中普遍存在的现象
所有的模型都是错的,但是有些是有用的!— George Box
自然界和社会科学中,遵循高斯分布的过程多得令人难以置信。即使没有,高斯函数给出了这些过程的最佳模型近似值。一些例子包括:
-
我们成年人的身高、血压和智力
-
扩散之后的粒子的位置
-
测量误差
数学推理:中心极限定理
中心极限定理指出,当我们加入大量的独立随机变量时,不管这些变量的原始分布如何,它们的归一化和都趋向于高斯分布。例如,随机游走所覆盖的总距离的分布趋向于高斯概率分布。
该定理的含义包括,大量专门为高斯模型开发的科学和统计方法也可以应用于可能涉及任何其他类型分布的广泛问题。
这个定理也可以解释为什么许多自然现象遵循高斯分布。
一次高斯,终生高斯!
不像许多其他分布在变换时性质会改变,高斯分布的变换往往仍然是高斯分布。
-
两个高斯函数的乘积是高斯函数
-
两个独立高斯随机变量的和是高斯的
-
高斯函数与另一个高斯函数的卷积是高斯函数
-
高斯函数的傅里叶变换是高斯函数
简单
奥卡姆剃刀是一个哲学原理,它强调在所有其他事情都相同的情况下,最简单的解决方案是最好的。
对于每一个高斯模型的近似,可能存在一个复杂的多参数分布,可以提供更好的近似。但高斯分布仍然是首选,因为它使数学更简单!
-
均值、中位数、模型都是相同的
-
整个分布可以用两个参数指定:均值和方差
高斯分布是以伟大的数学家和物理学家卡尔·弗里德里希·高斯命名的。
英文原文:
https://towardsdatascience.com/why-data-scientists-love-gaussian-6e7a7b726859