数据挖掘-基础知识-笔记汇总11：贝叶斯与决策树-建决策树

课程笔记第十篇

本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。

第三章第四节-建决策树：

该问题就是做如何建一颗更小更短的树。

经典算法：

ID3:

目标是选择更好区分度更大的属性，然后放在树的上面。

那么如何选择一个更有效能的属性呢？

就要用到我们之前学过的熵的概念了。点这里

数据挖掘-基础知识-笔记汇总11：贝叶斯与决策树-建决策树

信息增益越大越好，即选择一个能对系统的不确定性降低更多的属性。

属性用过的不能再用，直到最纯或者没有属性了为止，不纯的话就用多的做结果，如果相等可以使用上一层的结果作为结果。

过学习overfitting：即训练集中表现很好，在测试集中表现一般。

树太复杂会造成overfitting，防止过学习的方法：1.建树时控制大小；2.建完再进行剪枝。

剪枝pruning：

数据挖掘-基础知识-笔记汇总11：贝叶斯与决策树-建决策树

剪枝也不能过分地去剪，到一个拐点就要收手了，不然太简单效能又降低了。

剪枝时要看着决策树在校验集（validation set）上的表现，一开始在检验集上的误差是会降低的，因为原来过学习了。

如果一个属性把样本切分地很碎很细，比如身份证（唯一），这样是毫无意义的分类。

引入一个惩罚量：属性把数据分得越碎惩罚量就越大

数据挖掘-基础知识-笔记汇总11：贝叶斯与决策树-建决策树

这样就可以避免选择这样的无意义的属性。

以上全是离散型的。

连续型：离散化。

数据挖掘-基础知识-笔记汇总11：贝叶斯与决策树-建决策树