课程笔记第十篇
本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。
第三章第四节-建决策树:
该问题就是做如何建一颗更小更短的树。
经典算法:
ID3:
目标是选择更好区分度更大的属性,然后放在树的上面。
那么如何选择一个更有效能的属性呢?
就要用到我们之前学过的熵的概念了。点这里
信息增益越大越好,即选择一个能对系统的不确定性降低更多的属性。
属性用过的不能再用,直到最纯或者没有属性了为止,不纯的话就用多的做结果,如果相等可以使用上一层的结果作为结果。
过学习overfitting:即训练集中表现很好,在测试集中表现一般。
树太复杂会造成overfitting,防止过学习的方法:1.建树时控制大小;2.建完再进行剪枝。
剪枝pruning:
剪枝也不能过分地去剪,到一个拐点就要收手了,不然太简单效能又降低了。
剪枝时要看着决策树在校验集(validation set)上的表现,一开始在检验集上的误差是会降低的,因为原来过学习了。
如果一个属性把样本切分地很碎很细,比如身份证(唯一),这样是毫无意义的分类。
引入一个惩罚量:属性把数据分得越碎惩罚量就越大
这样就可以避免选择这样的无意义的属性。
以上全是离散型的。
连续型:离散化。