信息、熵、信息增益是在决策树中用到的概念,在利用特征进行分类时,会考虑特征选取的顺序。
1. 信息
香农: 信息是用来消除随机不确定性的东西。
如果带分类的事物集合可以划分为多个类别中,则某个类的信息定义如下:
表示随机变量的信息,指发生时的概率,这里说一下随机变量的概念,随机变量是从样本空间到实数集的一个映射,样本空间是指所有随机事件发生的结果的并集,比如当你抛硬币的时候,会发生两个结果,正面或反面,而随机事件在这里可以是,硬币是正面;硬币是反面;两个随机事件,而{正面,反面}这个集合便是样本空间,但是在数学中不会说用‘正面’、‘反面’这样的词语来作为数学运算的介质,而是用0表示反面,用1表示正面,而“正面->1”,"反面->0"这样的映射便为随机变量,即类似一个数学函数。
2. 熵
熵度量随机变量的不确定性,熵是信息的期望值。
条件熵: