信息量，熵，互信息，信道容量等相关概念

读论文时，发现关于信息论一无所知的样子，基本概念十分混淆，下面是一些基本概念及对应的理解~

文章目录

一. 信息量
二. 熵
三. 联合熵
四. 条件熵
五. 互信息
六. 信道容量

一. 信息量

1. 定义

信息量是对事件的不确定性的度量，单位bit。

定义：在随机变量X中，事件x的(自)信息量 $I(X=x)$ 简写为 $I(x)=−log_2 p(x)$ ，单位 $bit$ 。

可见，概率越小，信息量越大；概率越大，信息量越小。

2. 特性

(摘自曹雪红编著的《信息论与编码》)

当 $p(x)=1,I(x)=0$ ;
当 $p(x)=0,I(x)=\infty$ ；
若两个事件x，y同时出现，可以用联合概率 $p(x,y)$ 来表示他们同时发生的概率。这时，x，y同时出现这个联合事件(x,y)的自信息量为 $I(x,y)=−log2p(x,y)$ ；当x和y相互独立时 $p(x,y)=p(x)p(y)$ ，那么就有 $I(x,y)=I(x)+I(y)$ 。
若两个事件的出现不是独立的，而是有相互联系的，则可以用条件概率 $p(x|y)$ 来表示，即在事件y出现的概率下，事件x发生的条件概率，这样x的条件自信息量可以定义为 $I(x∣y)=−log_2p(x∣y)$ .

事件 $x_i$ 的不确定度在数值上等于它的信息量，而不论事件发生与否，只要其概率 $p(x_i)$ 存在，那么它就有不确定度；而事件 $x_i$ 的信息量是事件发生后带给人们的信息量。

二. 熵

熵指的是随机变量的熵；熵是随机变量不确定度的度量。

1. 定义

设X是一个离散型随机变量，分布律为 $p(x)=p(X=x)$ ， $x\in X$ 为取值空间集合，则随机变量X的熵 $H(X)$ 定义为：

$H(X)=−\sum_{x\in X}p(x) \text{log}_2 p(x)$

单位 $bit$ ；注意，单位取决于定义用到对数的底。当 $b = 2$ ，熵的单位是 $bit$ ；当 $b= e$ ，熵的单位是 $nat$ ；而当 $b=10$ ，熵的单位是 $Hart$ 。

依据Boltzmann’s H-theorem，香农把随机变量 X 的熵值 Η 定义如下:

$\Eta(X) = \mathrm{E}[\mathrm{I}(X)] = \mathrm{E}[-\ln(\mathrm{P}(X))].$

其中， P 为X的概率质量函数（probability mass function），E 为期望函数，而 I(X) 是X 的信息量（又称为自信息）。I(X) 本身是个随机变数。

2. 理解

熵是数学期望！熵是数学期望！熵是数学期望！

随机变量X的熵的含义就是X的所有可能的事件 $x\in X$ 的自信息量( 即 $I(x)$ )的期望。

熵又称为自信息(self-information)，表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。

熵可以理解为不确定性的量度（或者说是多样性diversity的度量），因为越随机的信源的熵越大。熵可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

随机变量X的熵实际上是X的分布的泛函数，不依赖于X的实际取值，只依赖于X的分布。
泛函数：输入为函数，输出为实数的函数。

信息量是事件的信息量，熵是随机变量的信息量；

当所有的 $p(x)$ 都相等，且值为 $p(x) = 1/M$ 时,熵取得最大值；当且仅当X的分布是均匀分布时，熵最大。

三. 联合熵

1. 定义

对于联合分布为 $p(x,y)$ 的一对离散型随机变量 $(X,Y)$ ，其联合熵(joint entropy) $H(X,Y)$ 定义为：
$H(X,Y)=-\sum_{x\in X} \sum_{y \in Y}p(x,y) \mathrm{log}_2 p(x,y)$
单位bit。

2. 理解

联合熵的含义就是所有可能事件(x,y)的自信息量的期望。
$\mathrm{H}(X,Y)=\mathrm{E}(\mathrm{I}(X,Y))=−\mathrm{E}(\mathrm{log}_2p(x,y)) \\ =-\sum_{所有x} \sum_{所有y}p(x,y) \mathrm{log}_2 p(x,y)$
联合熵实际上就是描述一对随机变量平均所需要的信息量。

四. 条件熵

1. 定义

在给定随机变量X的条件下，随机变量Y的不确定性。
$H(Y|X)=-\sum_{x\in X} p(x)H(Y|X=x) \\ =-\sum_{x\in X} p(x) \sum_{y \in Y} p(y|x) \mathrm{log}_2 p(y|x) \\ =-\sum_{x\in X} \sum_{y \in Y}p(x,y) \mathrm{log}_2 p(y|X=x) \\$

2. 理解

注意，这个条件熵，不是指在给定某个数（某个变量为某个值）的情况下，另一个变量的熵是多少，变量的不确定性是多少？而是期望！因为条件熵中X也是一个变量，意思是在一个变量X的条件下（变量X的每个值都会取），另一个变量Y熵对X的期望。

3. 定理链式法则：信息量，熵，互信息，信道容量等相关概念
证明：

五. 互信息

设随机变量X为信源符号集合，随机变量Y为信宿符号集合，则互信息 $I(X;Y)$ 表示信宿收到一个符号时，平均能够获得的信源的信息量；也可理解为X与Y之间的离散信道上传输每个符号的平均信息量。

定义先验概率为信源X的分布 $p(x_i)$ 。当信宿收到一个符号 $y_j$ 后，信宿可以计算信源发出各符号的条件概率 $p(x_i∣y_j)$ ，定义为后验概率。

随机变量可等价为信源，事件可等价为符号。

1. 定义

定义：事件 $y_j$ 与事件 $x_i$ 间的互信息量表示从事件y发生所得到的关于事件x的信息量。互信息量定义为后验概率与先验概率之比的对数。

平均互信息 $I(X;Y)$ 克服了互信息量 $I(x_i;y_j)$ 的随机性，成为一个确定的量。因此可以作为信道中流通信息量的整体测度。
即：
信息量，熵，互信息，信道容量等相关概念

2. 理解

因为H(X)是符号X的熵或者不确定度，而 $H(X|Y)$ 是当Y已知时X的不确定度，那么可见“Y已知”这件事使得X的不确定度减少了 $I(X;Y)$ ，这意味着“Y已知后”所获得的关于X的信息是 $I(X;Y)$ .

由此可以看出，互信息 $I(X;Y)$ 是在给定Y知识条件下X的不确定度的缩减量。则，信息量，熵，互信息，信道容量等相关概念
联系到前面的

可得，

信息量，熵，互信息，信道容量等相关概念
由于 H(X|X) = 0, 所以, H(X) = H(X) – H(X|X) = I(X; X)

这一方面说明了为什么熵又称自信息,另一方面说明了两个完全相互依赖的变量之间的互信息并不是一个常量,而是取决于它们的熵。

六. 信道容量

信息传输率： $R=I(X;Y)$ ,单位bit/符号
信道容量：最大的信息传输率。
$C=\mathrm{max}_{p(x)}\mathrm{I}(X;Y)$
单位bit/符号。

根据信道容量的定义，就是在固定信道条件下，对所有可能的输入概率分布p(x)求平均互信息的极大值。

$I(X;Y)$ 是输入概率的上凸函数，故极大值一定存在。

信道的互信息 $I(X;Y)$ 的极大值即等于信道容量。

————————————————
原文链接：https://blog.csdn.net/qq_34440148/article/details/84642402