C4.5 是对 ID3 的一个优化,它根据信息增益率来进行属性选择。
关于决策树,请参见:http://blog.csdn.net/bone_ace/article/details/46299681
关于 ID3,请参见:http://blog.csdn.net/Bone_ACE/article/details/46312215
关于 C4.5
C4.5 主要针对 ID3 的缺陷作了一些优化改进,相当于是一个“升级版”的 ID3:
- 能够处理连续型和离散型的数据。
- 能够处理包含缺失值的数据。
- 对生成的决策树进行了减枝。
- 使用信息增益率作为属性选择的标准。
信息增益率
信息增益率定义为:
其中,分母
信息增益