决策树构造实例
有如下表格的数据,是近两周(14天)的打球情况,特征为天气表现、温度、适度、是否有风4种不同的环境,目标:构造决策树。
问题:拿哪个特征作为根节点?
有4种划分方式如下:
判断依据:信息增益。
(1)求熵。
在14天的数据中,有9天有打球,5天没有打球。所以此时的熵为:
(2)对四个特征进行分析(以下举例outlook特征):
【1】outlook的特征:
【2】根据统计的数据,outlook取值分别为sunny,overcast,rainy的概率分别是:5/14,4/14,5/14。
【3】当outlook作为根节点时
熵值计算:新的熵值为:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693
增益:0.940 - 0.693 = 0.247。
【4】同样的方式可以计算出其他特征的信息增益,则选择最大的即可。相当于遍历了一遍特征,找出大哥,然后在其余中继续通过信息查找二哥。