@(信息科学原理)

导论

香农熵

信息:h(x)=logp(x)

H(X,Y)=xXP(x)log(P(x))=ExPlog(P(x))

其中0log0=0,并且定义log1e=1natslog12=1bits

联合熵

H(X,Y)=xX,yYP(x,y)logP(x,y)=ExPlogP(x,y)

互信息

I(X,Y)=xX,yYP(x,y)logP(x,y)P(X)P(Y)=Ex,yPlogP(x,y)P(X)P(Y)=DKL(P(x,y)∣∣P(X)P(Y))

衡量两个信息的相关性大小的量

条件熵

H(Y|X)=xX,yYP(x,y)logP(y|x)=xX,yYP(x,y)logP(x,y)P(x)=xX,yYP(x,y)logP(x)P(x,y)=Ex,yPlogP(x)P(x,y)

知道的信息越多,随机事件的不确定性就越小

proof: H(X,Y)=H(X)+H(Y|X) :

H(X,Y)=xX,yYP(x,y)logP(x,y)=xX,yYP(x,y)log[P(y|x)P(x)]=xX,yYP(x,y)[logP(y|x)+logP(x)]=xX,yYP(x,y)logP(y|x)+[xXP(x)logP(x)]=H(Y|X)+H(x)

proof:H(X,Y|Z)=H(X|Z)+H(Y|X,Z)
H(X,Y|Z)=x,y,zP(x,y,z)logP(x,y|z)=x,y,zP(x,y,z)log[P(x,y,z)P(z)]=x,y,zP(x,y,z)log[P(x,y,z)P(x,z)P(x,z)p(z)]=[x,y,zP(x,y,z)logP(x,y,z)P(x,z)]+[x,y,zP(x,y,z)logP(x,z)P(z)]=[x,y,zP(x,y,z)logP(x,y,z)P(x,z)]+[x,zP(x,z)logP(x,z)P(z)]=H(Y|X,Z)+H(X|Z)

相对熵(KL-散度)

DKL(P∣∣Q)=xXP(x)logP(x)Q(x)=ExP[logP(x)Q(x)]=ExP[logP(x)logQ(x)]

note:DKL(P∣∣Q)0,用于衡量两个分布的相似性

交叉熵

H(P,Q)=H(P)+DKL(P∣∣Q)H(P,Q)=ExPlogQ(x)

边缘概率,条件概率,联合概率

信息科学原理第一章(香农熵,条件熵,相对熵)
- 边缘概率就是计算每一边
- 联合概率计算的是P(X=x,Y=y)=P(y|x)P(x)

- 条件概率计算的是P(y|x)=P(x,y)P(x)

对于离散的随机变量:
信息科学原理第一章(香农熵,条件熵,相对熵)

对于连续的随机变量:
信息科学原理第一章(香农熵,条件熵,相对熵)

example

H(X)=xXP(x)logp(x)=12log2+14log4+18log8+18log8=74log2=74bits

H(X|Y)=xXyYP(x,y)logP(x,y)P(y)=432log1/44/32+232log1/42/32+232log1/42/32+=118bits

H(X,Y)=xXyYP(x,y)logP(x,y)=278bits

相关文章:

  • 2021-11-07
  • 2021-09-10
  • 2021-11-03
  • 2021-07-31
  • 2021-11-11
  • 2021-04-04
  • 2021-11-03
  • 2021-12-12
猜你喜欢
  • 2021-04-16
  • 2021-12-08
  • 2021-11-12
  • 2021-11-25
  • 2021-05-28
  • 2021-05-27
相关资源
相似解决方案