机器学习-----信息-------熵

1.1什么是信息

信息定义公式: i(x) = -log( p(x) )

我们理解概率p是对某个事件确定性的度量，认为信息是对某个事件不确定性的度量。

如果两个事件X和Y独立，即p(xy)=p(x)p(y) ，假定X和y的信息量分别为i(x)和i(y)，则二者同时发生的信息量应该为i(x^y)=i(x)+i(y)。

1.2什么是熵

熵是对平均不确定性的度量。定义公式H(x) = -∑ p(x) log( p(x) )

1.3 联合熵

机器学习-----信息-------熵

1.4条件熵

机器学习-----信息-------熵

1.5什么是互信息

定义： i(y,x) = i(y) - i(y|x) = log( p(y|x) / p(y) ),表示一个随机变量由于已知另一个随机变量而减少的不确定性

互信息的对称性
i(y,x) = i(y) - i(y|x) = log(p(y|x) / p(y))
=log( p(yx) / ( p(y)p(x) ) ) //同时乘与p(x)
=log( p(x|y) / p(x) )
=i(x) - i(x|y) = i(x,y)
=i(先验事件) - i(后验事件)

1.6平均互信息

平均互信息量(I(X;Y))是统计平均意义下的先验不确定性与后验不确定性之差，是互信息量的统计平均:

机器学习-----信息-------熵

决策树中的“信息增益”其实就是平均互信息I(X,Y)。

机器学习-----信息-------熵

1.7交叉熵

交叉熵的概念用以衡量估计模型与真实概率分布之间的差异。

机器学习-----信息-------熵

1.8相对熵 (KL距离)

也是衡量两个概率分布的差异性

1.9各个熵之间的关系

机器学习-----信息-------熵