决策树构造实例

有如下表格的数据,是近两周(14天)的打球情况,特征为天气表现、温度、适度、是否有风4种不同的环境,目标:构造决策树。

机器学习 -- 决策树(Ⅴ决策树构造实例)

问题:拿哪个特征作为根节点?

有4种划分方式如下:

机器学习 -- 决策树(Ⅴ决策树构造实例)

判断依据:信息增益。

(1)求熵。

在14天的数据中,有9天有打球,5天没有打球。所以此时的熵为:

机器学习 -- 决策树(Ⅴ决策树构造实例)

(2)对四个特征进行分析(以下举例outlook特征):

机器学习 -- 决策树(Ⅴ决策树构造实例)

【1】outlook的特征:

机器学习 -- 决策树(Ⅴ决策树构造实例)

 

【2】根据统计的数据,outlook取值分别为sunny,overcast,rainy的概率分别是:5/14,4/14,5/14。

【3】当outlook作为根节点时

熵值计算:新的熵值为:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693

增益:0.940 - 0.693 = 0.247。

【4】同样的方式可以计算出其他特征的信息增益,则选择最大的即可。相当于遍历了一遍特征,找出大哥,然后在其余中继续通过信息查找二哥。

 

相关文章: