信息熵和信息增益的简单理解与计算

信息熵：

信息熵的概念很简单，熵在信息论中代表随机变量不确定的度量。

熵越大，数据的不确定性越高。
熵越小，数据的不确定性越低。

信息熵的公式：

下面的公式就是香农提出的信息熵的公式：
$H = - \sum_{i=1}^k p_i log(p_i)$
解释一下：

假如一组数据有k类信息，那么每一个信息所占的比例就是 $p_i$ 。比如鸢尾花数据包含三种鸢尾花的数据，那么每种鸢尾花所占的比例就是 $\frac 1 3$ ，那么 $p_1$ 、 $p_2$ 、 $p_3$ 就分别为 $\frac 1 3$ 。
因为 $p_i$ 只可能是小于1的，所以 $log(p_i)$ 始终是负数。所以需要在公式最前面加负号，让整个熵的值大于0。

信息增益：

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好，在概率中定义为：待分类的集合的熵和选定某个特征的条件熵之差。

信息熵和信息增益的简单理解与计算

参考文档：https://www.devtalking.com/articles/machine-learning-15/

相关文章：

2021-07-27
2021-10-07
2021-06-14
2021-11-03
2021-06-12
2021-04-30

猜你喜欢

2022-12-23
2022-02-26
2021-04-13
2021-05-01
2021-07-02
2021-06-09

相关资源

下载 2023-02-23
下载 2023-01-01
下载 2021-06-05

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode