3.决策树和随机森林

文章目录

1.决策树和随机森林

1.1 CART（分类与回归树）
1.2 随机森林
1.3 信息熵
1.4 决策树

1.4.1 决策树学习算法的特点

1.5 决策树学习生成的算法
1.6 信息增益
1.7 信息增益的计算方法
1.8 经验条件熵
1.9 Gini 系数

1.决策树和随机森林

1.1 CART（分类与回归树）

输入数据x： M个样本数据，每个数据包括年龄、性别、职业、每日使用计算机时间等
输出y：该样本是否喜欢计算机游戏

3.决策树和随机森林

图片中的结构图即为一颗决策树（根据树状图来做决策的过程）

1.2 随机森林

由多颗决策树组成的决策数的集合叫做随机森林。如下图所示：

3.决策树和随机森林

1.3 信息熵

已知：一个事件发生的概率越大，表明其蕴含的信息量越低。比如一件事确定会发生的，说明已知了，必定发生，没蕴含什么信息

对于事件X发生的概率为P，那么事件X的信息熵为：
$\sum_{i=1}^{n}{p_i*ln(p_i)}$
下面介绍条件熵的概念：

H(X,Y) - H(X)

表示：（X,Y）发生所包含的熵，减去X单独发生包含的熵：在X发生的前提下，Y发生“新”带来的熵。该式子定义为X发生前提下，Y的熵：条件摘H（Y|X）

3.决策树和随机森林

1.4 决策树

决策树是一种树型结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶结点代表一种类别。
决策树学习是以实例为基础的归纳学习。
决策树学习采用的是自顶向下的递归方法，其基本思想是以信息摘为度量构造一棵摘值下降最快的树，到叶子节点处的熵值为零，此时每个叶节点中的实例都属于同一类。

1.4.1 决策树学习算法的特点

决策树学习算法的最大优点是，它可以自学习。在学习的过程中，不需要使用者了解过多背景知识，只需要对训练实例进行较好的标注，就能够进行学习。■显然，属于有监督学习。
从一类无序、无规则的事物（概念）中推理出决策树表示的分类规则。

1.5 决策树学习生成的算法

建立决策树的关键，即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数，建立决策树主要有一下三种算法。

ID3(Iterative Dichotomiser )
C4.5
CART(Classification And Regression Tree)

1.6 信息增益

概念：当熵和条件嫡中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵和条件摘分别称为经验熵和经验条件熵。
信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。
定义：特征A对训练数据集D的信息增益g（D，A），定义为集合D的经验熵H（D）与特征A给定条件TD的经验条件熵H（D|A）之差，即：g（D，A）- H（D）-H(D|A）

显然，这即为训练数据集D和特征A的互信息

1.7 信息增益的计算方法

3.决策树和随机森林

3.决策树和随机森林

1.8 经验条件熵

3.决策树和随机森林

1.9 Gini 系数

3.决策树和随机森林

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode