机器学习之——决策树（1）算法思想

机器学习中分类和预估算法的评估：

——————————————————————————————
1.什么是决策树/判定树（decision tree）？
每个内部节点代表在一个属性上的测试
每个分支代表一个属性输出
每个树叶结点代表类或者类分布
树的最顶层是根节点
机器学习之——决策树（1）算法思想

2.机器学习中分类算法的一个重要算法
3.构造决策树的基本算法
3.1熵概念：
信息和抽象，如何度量？
一条信息的信息量的大小和他的不确定性有直接关系，要搞清一件非常非常不确定的事情，或者一无所知的事情，需要大量的信息==》信息量的度量就等于不确定性的多少。
比特（bit）来衡量信息的多少，

机器学习之——决策树（1）算法思想
变量的不确定性越大，熵也就越大。

3.1决策树归纳算法（ID3）
选择属性判断节点：
信息获取量：Gain(A)=Info_(D)-Info_A(D)
通过A来作为节点分类获取了多少信息
如：结果：共14个，有5个不买电脑，9个买电脑
机器学习之——决策树（1）算法思想

3.1其他算法：
C4.5
CART
区别：属性选择的度量方法不同
3.2如何处理连续变量的属性？
将其离散化
4.树剪枝叶（避免overfitting）
4.1先剪枝
4.2后剪枝

5.决策树优点：直观，便于理解，小规模数据有效
缺点：处理连续变量不好，类别较多时，错误增加的比较快，可规模性一般

—————————————————————————————————