机器学习中分类和预估算法的评估

  • 准确率
  • 速度
  • 强壮性
  • 可规模性
  • 可解释性

——————————————————————————————
1.什么是决策树/判定树(decision tree)?
每个内部节点代表在一个属性上的测试
每个分支代表一个属性输出
每个树叶结点代表类或者类分布
树的最顶层是根节点
机器学习之——决策树(1)算法思想

2.机器学习中分类算法的一个重要算法
3.构造决策树的基本算法
3.1熵概念:
信息和抽象,如何度量?
一条信息的信息量的大小和他的不确定性有直接关系,要搞清一件非常非常不确定的事情,或者一无所知的事情,需要大量的信息==》信息量的度量就等于不确定性的多少。
比特(bit)来衡量信息的多少,

机器学习之——决策树(1)算法思想
变量的不确定性越大,熵也就越大。

3.1决策树归纳算法(ID3)
选择属性判断节点:
信息获取量:Gain(A)=Info_(D)-Info_A(D)
通过A来作为节点分类获取了多少信息
如:结果:共14个,有5个不买电脑,9个买电脑
机器学习之——决策树(1)算法思想
机器学习之——决策树(1)算法思想
机器学习之——决策树(1)算法思想

3.1其他算法:
C4.5
CART
区别:属性选择的度量方法不同
3.2如何处理连续变量的属性?
将其离散化
4.树剪枝叶(避免overfitting)
4.1先剪枝
4.2后剪枝

5.决策树优点:直观,便于理解,小规模数据有效
缺点:处理连续变量不好,类别较多时,错误增加的比较快,可规模性一般

—————————————————————————————————

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-05-12
  • 2021-08-03
  • 2021-06-15
  • 2021-05-28
猜你喜欢
  • 2022-01-05
  • 2021-10-15
  • 2021-11-15
相关资源
相似解决方案