入门知识点: 熵: 假设集合中的变量X={x1,x2…xn},它对应在集合的概率分别是P={p1,p2…pn}。 信息增益: 第一列为QQ,第二列为性别,第三列为活跃度,最后一列用户是否流失。我们要解决一个问题:性别和活跃度两个特征,哪个对用户流失影响更大?我们通过计算信息熵可以解决这个问题。 按照分组统计,我们可以得到如下信息: 其中Positive为正样本(已流失),Negative为负样本(未流失),下面的数值为不同划分下对应的人数。那么可得到三个熵: 相关文章: