【发布时间】:2020-09-22 01:36:03
【问题描述】:
我有一个 10K 的数据集,我创建了以下十个特征:
- 距离 -(0 或 1)
- IsPronoun -(对或错)
- 字符串匹配 - (真或假)
- 指示 NP -(如果 i 和 j 是指示代词,则为真)
- 数字一致 - (检查 i 或 j 是单数还是复数代词)
- 语义兼容性 -(如果 i 和 j 在语义上兼容)
- 性别一致 - (检查 i 或 j 是男性还是女性)
- IsProperNoun -(查找 i 或 j 是否为专有名词)
- 同位-(查找i是否与j相反)
- 别名 - (查找 i 是否为 j 的别名,反之亦然)
每个特征都有数据集的输出。现在我想做树。但首先,我应该如何计算熵和信息增益?
【问题讨论】:
标签: algorithm machine-learning decision-tree text-classification multilabel-classification