课程笔记第十篇

本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。

第三章第四节-建决策树

该问题就是做如何建一颗更小更短的树。

经典算法:

ID3:

目标是选择更好区分度更大的属性,然后放在树的上面。

那么如何选择一个更有效能的属性呢?

就要用到我们之前学过的熵的概念了。点这里

数据挖掘-基础知识-笔记汇总11:贝叶斯与决策树-建决策树

信息增益越大越好,即选择一个能对系统的不确定性降低更多的属性。

属性用过的不能再用,直到最纯或者没有属性了为止,不纯的话就用多的做结果,如果相等可以使用上一层的结果作为结果。

过学习overfitting:即训练集中表现很好,在测试集中表现一般。

树太复杂会造成overfitting,防止过学习的方法:1.建树时控制大小;2.建完再进行剪枝。

剪枝pruning:

数据挖掘-基础知识-笔记汇总11:贝叶斯与决策树-建决策树

剪枝也不能过分地去剪,到一个拐点就要收手了,不然太简单效能又降低了。

剪枝时要看着决策树在校验集(validation set)上的表现,一开始在检验集上的误差是会降低的,因为原来过学习了。

 

 

如果一个属性把样本切分地很碎很细,比如身份证(唯一),这样是毫无意义的分类。

引入一个惩罚量:属性把数据分得越碎惩罚量就越大

数据挖掘-基础知识-笔记汇总11:贝叶斯与决策树-建决策树

这样就可以避免选择这样的无意义的属性。

以上全是离散型的。

 

连续型:离散化。

数据挖掘-基础知识-笔记汇总11:贝叶斯与决策树-建决策树

 

相关文章: