信息、熵、信息增益是在决策树中用到的概念,在利用特征进行分类时,会考虑特征选取的顺序。

1. 信息

香农: 信息是用来消除随机不确定性的东西。

如果带分类的事物集合可以划分为多个类别中,则某个类xix_i的信息定义如下:

I(X=xi)=log2p(xi)I(X=x_i)=-log_2 p (x_i)

I(X)I(X)表示随机变量的信息,p(xi)p(x_i)xix_i发生时的概率,这里说一下随机变量XX的概念,随机变量XX从样本空间到实数集的一个映射,样本空间是指所有随机事件发生的结果的并集,比如当你抛硬币的时候,会发生两个结果,正面或反面,而随机事件在这里可以是,硬币是正面;硬币是反面;两个随机事件,而{正面,反面}这个集合便是样本空间,但是在数学中不会说用‘正面’、‘反面’这样的词语来作为数学运算的介质,而是用0表示反面,用1表示正面,而“正面->1”,"反面->0"这样的映射便为随机变量,即类似一个数学函数。

2. 熵

度量随机变量的不确定性,熵是信息的期望值。
信息、熵、信息增益

条件熵:

信息、熵、信息增益

3. 信息增益

信息、熵、信息增益

相关文章: