数据科学-概率与概率分布

1. 随机事件及其概率

1.1 随机事件的几个基本概念

试验和事件
在同一组条件下，对某事物或现象所进行的观察或实验叫做试验，把观察或试验的结果叫做事件
**随机事件：**在同一组条件下，每次试验可能出现也可能不出现的事件，也叫偶然事件
**必然事件：**在同一组条件下，每次试验一定出现的事件
**不可能事件：**在同一组条件下，每次试验一定不会出现的事件
如果一个时间不能分解为两个或更多个事件，则这个事件成为基本事件或简单事件。
基本事件特征：在一次试验中，只能观察到一个且仅有一个简单事件。
如果试验中所有的简单事件的全体称为样本空间或基本空间。

1.2 事件的概率

事件 $A$ 的概率是对事件 $A$ 在试验中出现的可能性大小的一种度量，记事件 $A$ 出现的可能性大小的数字为 $P(A)$ ， $P(A)$ ，称为事件 $A$ 的概率。

概率的古典定义
古典概率的特点

结果有限。即样本空间中只含有限个元素。如，掷硬币试验中，只能出现正面朝上和反面朝上两种结果。
各个结果出现的可能性被认为是相同的。如掷硬币，出现正面或反面的机会是相等的。

定义：如果某一随机试验的结果有限，而且各个结果出现的可能性相等，则某一事件 $A$ 发生的概率为该事件所包含的基本事件格式m与样本空间所包含的基本事件格式n的比值，记为
数据科学-概率与概率分布
古典概率的局限在随机试验只有有限个可能结果的范围内，这使其应用受到很大的限制。

概率的统计定义
在相同条件下随机试验 $n$ 次，某事件 $A$ 出现 $m$ 次 $(m \leqslant n)$ ，则比值 $m / n$ 称为事件 $A$ 发生的概率。随着 $n$ 的增大，该频率围绕某一常数 $p$ 上下波动，且波动的幅度逐渐减小，趋于稳定，这个频率的稳定值即为该事件的概率，记为
$P(A)=\frac{m}{n}=p$
主观概率定义
指一些无法重复试验，只能根据以往经验，人为确定这个事件的概率。

2. 离散型随机变量及其分布

2.1 随机变量的概念

随机事件的数量化
为了把随机事件数量化，以便作数学上的处理，有必要把不采用数量标识表示化采用数量标识表示。
随机变量的定义
在同一组条件下，如果每次试验可能出现这样或那样的结果，并且所有的结果都能列举出来，即 $X$ 的所有结果， $x_{1}$ , $x_{2}$ ,… $x_{n}$ 都能列举出来，而且 $X$ 的可能值 $x_{1}$ , $x_{2}$ ,… $x_{n}$ 具有确定的概率 $P\left(x_{1}\right)$ , $P\left(x_{2}\right)$ ,… $P\left(x_{n}\right)$ 其中$ $P\left(x_{i}\right)=P\left(X=x_{i}\right)$ 称为概率函数，则 $X$ 称为 $P(X)$ d 随机变量， $P(X)$ 称为随机变量 $X$ 的概率函数。
随机变量是基于随机事件的一个概念。各随机事件对应于一定的概率，随机变量也对应于一定的概率，而且随机变量来研究随对应的一定概率更全面，更系统。
两种类型的随机变量

离散型随机变量
如果随机变量 $X$ 的所有取值都可以逐个列举出来，则称 $X$ 为离散型随机变量。
连续型随机变量
如果随机变量X的所有取值无法逐个列举出来，而是取数轴上某一区间内的任一点，则称X为连续型随机变量。

2.2 离散型随机变量的概率分布

离散型随机变量的概率分布
一个仅在0与1离散点上的分布，称为0-1分布。
$P(X=1)=p$
$P(X=0)=1-p=q$
或 $P(x)=p^{x} q^{1-x}, \quad x=0,1$
式中， p,q>0 为常量，p+q=1,则称 $X$ 服从0-1分布

0-1分布是经常遇到的一种分布，如新生婴儿的性别，产品质量是否合格，某种试验是否成功，电力消耗是否超过负荷等，都可以使用0-1分布的离散型随机变量来描述。

描述掷色子这种概率分布叫离散型随机变量 $X$ 的均匀分布

离散型随机变量的期望值和方差

期望值
在离散型随机变量 $X$ 的一切可能值的完备组中个可能值 $x_{i}$ 与其对应的概率 $p_{i}$ 的乘积之和称为该随机变量 $X$ 的期望值，记作 $E(X)$ ,或 $\mu$
如果X取值 $x_{1}, x_{2}, \cdots, x_{n}$ ，其对应的概率为 $p_{1}, p_{2}, \cdots, p_{n}$ ，则期望值为：
$E(X)=x_{1} p_{1}+x_{2} p_{2}+\cdots+x_{n} p_{n}=\sum_{i=1}^{n} x_{i} p_{i}$

若 $x_{1}, x_{2}, \cdots, x_{n}, \cdots , $,，X取无穷个数值，其对应的概率为 $p_{1}, p_{2}, \cdots, p_{n} \cdots $，则期望值为：
$E(X)=x_{1} p_{1}+x_{2} p_{2}+\cdots+x_{n} p_{n}+\cdots=\sum_{i=1}^{\infty} x_{i} p_{i}$

方差与标准差
随机变量的方差是用来反映随机变量取值的离散程度的。随机变量的方差定义为每一个随机变量取值与期望值的离差平方之期望值。设随机变量为 $X$ ，其方差常用 $\sigma^{2}$ , $D(X)$ 或者 $V(X)$ ，表示，
$\sigma^{2}=D(X)=E[X-E(X)]^{2}$
在计算方差时，一个常用的简化公式为
$\sigma^{2}=D(X)=E[X^{2}]-[E(X)]^{2}$
由定义可知，若 $X$ 的取值比较集中，则方差较小；若 $X$ 的取值比较分散，则方差较大。如果方差为0，则意味着随机变量的取值集中于期望值 $E(X)$ ,即随机变量以概率1取值 $E(X)$ .
随便变量方差的平方根为标准差，
离散系数
离散系数可用来比较不同期望值的总体之间的离中趋势。

二项分布和泊松分布
二项分布
二项分布特征：

包含n个相同的试验
每次试验只有两个可能的结果：成功或失败
出现成功的概率p对每一次试验都是相同的，失败的概率q也是如此。且p+q=1
试验是相互独立的
试验成功或失败可以计数，即试验结果对应于一个离散型随机变量。

泊松分布
泊松分布用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布

3. 连续型随机变量的概率分布

3.1 概率密度与分布函数

由于连续型随机变量可以取某一区间或整个实数轴上的任意一个值，我们不能像对离散型随机变量那样列出每一个值及其相应的概率，而必须采用其他的方法，通常用数学函数和分布函数的形式来描述，当用函数 $f(x)$ 来表示连续型随机变量时，我们将 $f(x)$ 称为概率密度函数
概率密度函数满足的条件
数据科学-概率与概率分布

$f(x)$ 不是一个概率， $f(x)$ 称为概率密度函数，而 $P(X=x)$ 在连续分布的条件下为零。在连续分布的情况下，以曲线下面的面积表示概率。

连续型随机变量的概率也可以用分布函数 $F(x)$ 来表示，分布函数定义为：
数据科学-概率与概率分布

连续型随机变量的期望值与方差分别定义为：
数据科学-概率与概率分布

3.2 正态分布

在连续型随机变量中，最重要的一种随机变量是具有钟形概率分布的随机变量。称为正态随机变量，相应的概率分布称为正态分布。
数据科学-概率与概率分布

概率密度 $f(x)$ 特点

$f(x) \ge 0$ ,整个概率密度曲线都在 $x$ 轴的上方
曲线 $f(x)$ 相对于 $x = \mu$ 对称，并在 $x=\mu$ 处达到最大值，
曲线的陡缓程度有 $\sigma$ 决定， $\sigma$ 越大，曲线越平缓； $\sigma$ 越小，曲线越陡峭
当 $x$ 趋于无穷时，曲线以 $x$ 轴为其渐近线