Probability and Information Theory

读完Deep Learning的第三章Probability and Information Theory，总结一下这章的知识点。
第三章讲概率论和信息论的基础知识。

1. 随机变量Random Variables

在书中知识简单说随机变量是可以随机取不同值的变量，而没有给出确切定义。随机变量可以使分散的（discrete）或连续的（continuous）。（最近在学应用随机过程，其中有随机变量的严谨定义，这里粘贴一下：
Probability and Information Theory ）。

2. 概率分布Probability Distributions

离散随机变量和概率质量函数（Probability Mass Functions简称PMF）
我们使用P(X)和P(Y)分别表示随机变量X和Y的PMF。使用P(x)表示X=x时的概率，为了消除歧义，可以表示为P(X=x)。联合概率分布（joint probability distribution）可以表示为P(X = x, Y=y)。
PMF必须满足如下特性：
（1）P可以表示随机变量X的所有可能状态；
（2） Probability and Information Theory ；
（3）。

连续随机变量和概率密度函数（Probability Density Functions）
我们使用概率密度函数（PDF）描述连续随机变量的概率分布。PDF p必须满足如下特性：
（1）P可以表示随机变量X的所有可能状态；
（2） Probability and Information Theory
（3）
概率密度函数p(x)不能直接表示概率，需要积分。

（随机应用过程中关于分布函数的统一定义：
Probability and Information Theory
）

3.Marginal Probability

边缘概率是用来表示联合概率分布中的子集概率分布。
例如X,Y都是离散随机变量，P（X,Y）是联合分布函数，我们可以计算P(X)：
Probability and Information Theory 。
而对于连续随机变量：边缘函数的公式为：

4.Conditional Probability

条件概率是表示在给定条件已经发生的条件下，某个事件发生的概率。我们将x已经发生的前提下y发生的概率记为P(Y=y | X = x)。公式为：
Probability and Information Theory 。
联合概率分布可以使用条件概率实现分解，公式如下：
。
如果随机变量X和Y是独立的，联合概率分布可以表示为两个因子的乘积。公式如下：
。
而如果随机变量X和Y是基于随机变量Z条件独立的，则可以将条件概率进行分解。公式如下：
Probability and Information Theory 。

5.Expectation, Variance, Covariance

Expectation数学期望
数学期望是概率分布的均值。
离散随机变量的数学期望计算公式如下：
Probability and Information Theory 。
连续随机变量的数学期望计算公式如下：
。
应用随机过程中的数学期望定义如下图所示：
。
Variance方差
方差描述的是随机变量的分散程度。若方差很小，则说明分布靠近期望值。方差的计算公式如下：
Probability and Information Theory 。
Covariance协方差
协方差描述两个变量的线性相关性。如协方差绝对值很大，表明值改变很大，并且每个分布都距离期望值很远。协方差的定义如下：
。
相关系数定义为：。
相关系数表示随机变量X和Y的线性相关关系。所以相关系数等于0，表明随机变量X和Y是不相关的。

6.常用的概率分布

这里借用应用随机过程书上的一张图，不再详细介绍。
Probability and Information Theory 。
书中还介绍了Dirac delta function（狄拉克delta函数），表示为：。该函数是个广义函数，函数定义为：，且满足。

7.深度学习中常用的函数

在这章没有详细讲深度学习中用到的**函数，只是简单讲解了sigmoid函数和softplus函数。
sigmoid函数定义为： Probability and Information Theory 。sigmoid函数会在x绝对值非常大是出现饱和现象，即函数变得很平稳。
softplus函数定义为：。

7.Bayes’s Rule贝叶斯公式

贝叶斯公式定义为： Probability and Information Theory 。
贝叶斯公式提供一种计算方法。

第三章剩下内容是从测度论的角度讲解连续随机变量和信息论的相关知识，这里不再总结。