决策树算法

决策树 (decision tree) 是一类常见的机器学习方法.以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新示例进行分类,这个把样本分类的任务,可看作对"当前样本属于正类吗?“这个问题的"决策"或"判定"过程.顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制.例如,我们要对"这是好瓜吗?“这样的问题进行决策时,通常会进行一系列的判断或"子决策"我们先看"它是什么颜色?”,如果是"青绿色”,则我们再看"它的根蒂是什么形态?",如果是"蜷缩",我们再判断"它敲起来是什么声音?",最后?我们得出最终决策:这是个好瓜.

四、决策树算法
官方来说决策树中的每个节点是一个属性测试,每个分支是属性输出,想要得到最终的结果之前就必须经历若干个子决策,层层递进,慢慢靠近判断最优的那个结果。
决策树分为分类树和回归树

熵entropy

信息熵,我的理解就是信息(变量)的不确定性,不确定性越大,则熵越大
计算熵:
例如世界杯中的32只球队中每支球队最终获得冠军的概率分别为p1,p2,…p32,概率p的计算方式为T/D,T为某个球队的
四、决策树算法
**

**

如何生成决策树:

ID3算法

我们知道熵越大,数据的不确定性越大,数据样本集越混乱,这样就不符合决策树分类的需求。所以,我们需求奔着减小熵的目的来选择分类的依据和分类的结果。
同时在算法中为了衡量熵的变化,在这里引入信息增益的概念。

相关文章:

猜你喜欢
  • 2021-12-19
相关资源
相似解决方案