【深度学习500问】深度学习的数学基础部分（10/10）

概率分布与随机变量

1.机器学习为什么要使用概率
事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的，但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
机器学习除了处理不确定量，也需处理随机量。不确定性和随机性可能来自多个方面，使用概率论来量化不确定性。
概率论在机器学习中扮演着一个核心角色，因为机器学习算法的设计通常依赖于对数据的概率假设。

例如在机器学习（Andrew Ng）的课中，会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设，用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件，单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的，因为某些单词几乎总是同时出现。然而，最终结果是，这个简单的假设对结果的影响并不大，且无论如何都可以让我们快速判别垃圾邮件。

2.变量与随机变量有什么区别
随机变量（random variable）:表示随机现象（在一定条件下，并不总是出现相同结果的现象称为随机现象）中各种结果的实值函数（一切可能的样本点）。例如某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数等，都是随机变量的实例。
随机变量与模糊变量的不确定性的本质差别在于，后者的测定结果仍具有不确定性，即模糊性。

变量与随机变量的区别：当变量的取值的概率不是1时,变量就变成了随机变量；当随机变量取值的概率为1时,随机变量就变成了变量。

比如：
当变量x值为100的概率为1的话,那么x=100就是确定了的,不会再有变化,除非有进一步运算. 当变量x的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

3.随机变量与概率分布的联系
一个随机变量仅仅表示一个可能取得的状态，还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法，就是概率分布(probability distribution).

随机变量可以分为离散型随机变量和连续型随机变量。

相应的描述其概率分布的函数是

概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布，通常用大写字母 P表示。

概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布，通常用小写字母p表示。

4.离散型随机变量和概率质量函数
【深度学习500问】深度学习的数学基础部分（10/10）
5.连续型随机变量和概率密度函数

6.条件概率

根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是P(A⋂B)除以P(B)。
举例：一对夫妻有两个小孩，已知其中一个是女孩，则另一个是女孩子的概率是多少？（面试、笔试都碰到过）
穷举法：已知其中一个是女孩，那么样本空间为男女，女女，女男，则另外一个仍然是女生的概率就是1/3。
条件概率法：P(女|女)=P(女女)/P(女),夫妻有两个小孩，那么它的样本空间为女女，男女，女男，男男，则P(女女)为1/4，P（女）=1−P(男男)=3/4,所以最后1/3。
这里大家可能会误解，男女和女男是同一种情况，但实际上类似姐弟和兄妹是不同情况。

7.联合概率与边缘概率联系区别
区别：
联合概率：联合概率指类似于P(X=a,Y=b)这样，包含多个条件，且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
边缘概率：边缘概率是某个事件发生的概率，而与其它事件无关。边缘概率指类似于P(X=a)，P(Y=b)这样，仅与单个随机变量有关的概率。

联系：
联合分布可求边缘分布，但若只知道边缘分布，无法求得联合分布。

8.条件概率的链式法则
【深度学习500问】深度学习的数学基础部分（10/10）
9.独立性和条件独立性
独立性两个随机变量x和y，概率分布表示成两个因子乘积形式，一个因子只包含x，另一个因子只包含y，两个随机变量相互独立(independent)。
条件有时为不独立的事件之间带来独立，有时也会把本来独立的事件，因为此条件的存在，而失去独立性。
举例：P(XY)=P(X)P(Y), 事件X和事件Y独立。此时给定Z，
P(X,Y|Z)≠P(X|Z)P(Y|Z)
事件独立时，联合概率等于概率的乘积。这是一个非常好的数学性质，然而不幸的是，无条件的独立是十分稀少的，因为大部分情况下，事件之间都是互相影响的。

条件独立性
给定Z的情况下,X和Y条件独立，当且仅当
X⊥Y|Z⟺P(X,Y|Z)=P(X|Z)P(Y|Z)
X和Y的关系依赖于Z，而不是直接产生。

举例定义如下事件：
X：明天下雨；
Y：今天的地面是湿的；
Z：今天是否下雨；
Z事件的成立，对X和Y均有影响，然而，在Z事件成立的前提下，今天的地面情况对明天是否下雨没有影响。

常见概率分布

1.Bernoulli分布
【深度学习500问】深度学习的数学基础部分（10/10）
2.高斯分布

3.何时采用正态分布
问: 何时采用正态分布? 答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

4.指数分布
【深度学习500问】深度学习的数学基础部分（10/10）
5.Laplace 分布（拉普拉斯分布）

6.Dirac分布和经验分布

期望、方差、协方差、相关系数

1 期望
在概率论和统计学中，数学期望（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。【深度学习500问】深度学习的数学基础部分（10/10）
2 方差

概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。方差是一种特殊的期望。定义为：
【深度学习500问】深度学习的数学基础部分（10/10）
3 协方差

4 相关系数