【发布时间】:2016-07-06 11:05:36
【问题描述】:
我试图理解机器学习中决策树分类器背后的直觉。我知道决策树中每个节点的目标是进一步划分可能标签的当前空间,以便根据对该节点给定问题的回答尽可能多地消除候选标签。但是,这与基于最小化分区“熵”的属性选择分区有什么关系呢?其中“熵”定义如下:
H(S) = −p_1*log2(p_1) −... −p_n*log2(p_n)
和分区熵:
H = q_1*H(S_1) +...+ q_m*H(S_m)
with H(S): entropy of a given subset
H: partition entropy
p_i's: proportions of data belonging to class i
q_i's: proportions of data belonging to subset i based on given partition
此外,每个节点的“问题”是否必须是一个是/否问题,从而将当前标签空间分成 2 个?与 3 个或更多子集相反?任何明确的例子将不胜感激。
【问题讨论】:
标签: algorithm machine-learning decision-tree supervised-learning