信息论研究问题
主要以香农理论为主
信息
消除不确定性
信息度量
不确定性消除程度
不确定的程度于事件概率相关
(信息量是概率的单调递减函数)
自信息量
I(x)=−log(p(x))
其中
p(xi)>p(xj)→p(xi)<p(xj)I(0)=∞I(1)=0
对统计独立事件
I(xi,xj)=I(xi)+p(xj)
对数的底为
熵
H(X)=−∑p(x)log(p(x))
是平均不确定性,平均信息量
H(X)=E(I(X))
规定
0log0=0
零概率事件不影响熵
熵的性质
- 非负
当事件确定,熵为0
- 事件给定,熵为定值
- 离散熵有限
- 仅依赖于概率分布
伯努利分布的熵

联合熵
H(X,Y)=−∑∑p(x,y)log(p(x,y))=−E(log(p(X,Y)))
条件熵
H(Y∣X)=∑p(x)H(Y∣X=x)=−∑∑p(x,y)logp(y∣x)=−E(log(p(Y∣X)))
熵的链式法则
H(X,Y)=H(X)+H(Y∣X)
当X,Y统计独立
H(X,Y)=H(X)+H(Y)
相对熵
D(p∣∣q)=∑p(x)logq(x)p(x)=Eplogq(X)p(X)
约定0log00=0;0logq0=0;plog0p=0
相对熵性质
- 非负
当且仅当p=q相对熵为0
- 若有p(x)>0,q(x)=0则有D(p∣∣q)=∞
- 不是真正的距离
互信息
I(X;Y)=∑∑p(x,y)logp(x)q(y)p(x,y)=D(p(x,y)∣∣p(x)q(y))=Ep(x,y)logp(X)p(Y)p(X,Y)
表示给定一个随机变量对另一个随机变量不确定度造成的缩减量
推论
I(X;Y)=H(X)−H(X∣Y)
凸函数
f(λx1+(1−λ)x2)⩽λf(x1)+(1−λ)f(x2)
例如f(x)=xlog(x)
凹函数
f(λx1+(1−λ)x2)⩾λf(x1)+(1−λ)f(x2)
例如lf(x)=log(x)
Jensen不等式
f(X)凸函数,有
Ef(X)⩾f(EX)
熵的其他性质
- 极值性
H(X)≤log∣χ∣
- 条件使熵减少
H(X∣Y)≤H(X)
- 独立界
H(X1,...,Xn)≤∑H(Xi)
马尔可夫链
p(x,y,z)=p(x)p(y∣x)p(z∣y)
- Y给定,X,Z条件独立
- X->Y->Z蕴含Z->Y->X
数据处理不等式
若X->Y->Z
有
I(X;Y)≥I(X;Z)
等号成立条件当且仅当I(X;Y∣Z)=0
推论I(X;Y∣Z)≤I(X;Y)
费诺不等式
对于X→Y→X^
设Pe=PrX=X^
有
H(Pe)+Pelog∣χ∣≥H(X∣X^)≥H(X∣Y)
弱化为
1+Pelog∣χ∣≥H(X∣Y)