四、决策树算法

决策树算法

决策树 (decision tree) 是一类常见的机器学习方法.以二分类任务为例，我们希望从给定训练数据集学得一个模型用以对新示例进行分类，这个把样本分类的任务，可看作对"当前样本属于正类吗?“这个问题的"决策"或"判定"过程.顾名思义，决策树是基于树结构来进行决策的，这恰是人类在面临决策问题时一种很自然的处理机制.例如，我们要对"这是好瓜吗?“这样的问题进行决策时，通常会进行一系列的判断或"子决策"我们先看"它是什么颜色?”，如果是"青绿色”，则我们再看"它的根蒂是什么形态?"，如果是"蜷缩"，我们再判断"它敲起来是什么声音?"，最后?我们得出最终决策:这是个好瓜.

四、决策树算法
官方来说决策树中的每个节点是一个属性测试，每个分支是属性输出，想要得到最终的结果之前就必须经历若干个子决策，层层递进，慢慢靠近判断最优的那个结果。
决策树分为分类树和回归树

熵entropy

信息熵，我的理解就是信息（变量）的不确定性，不确定性越大，则熵越大
计算熵：
例如世界杯中的32只球队中每支球队最终获得冠军的概率分别为p1,p2,…p32，概率p的计算方式为T/D,T为某个球队的
四、决策树算法
**

如何生成决策树：

ID3算法

我们知道熵越大，数据的不确定性越大，数据样本集越混乱，这样就不符合决策树分类的需求。所以，我们需求奔着减小熵的目的来选择分类的依据和分类的结果。
同时在算法中为了衡量熵的变化，在这里引入信息增益的概念。