【问题标题】:Machine learning, Do unbalanced non-numeric variable classes matter机器学习,不平衡的非数字变量类重要吗
【发布时间】:2017-11-28 10:58:04
【问题描述】:
如果我的数据集中有一个非数字变量包含许多一个类但很少另一个类,这是否会导致与目标类不平衡时相同的问题?
例如,如果我的变量之一是标题,并且目的是确定一个人是否肥胖。数据肥胖类按 50:50 拆分,但只有一行标题为“Duke”,这一行属于肥胖类。这是否意味着像逻辑回归这样的算法(在数字编码之后)将开始预测所有 Dukes 都是肥胖的(或者对标题“Duke”有不成比例的权重)?如果是这样,某些算法在处理这种情况下是否更好/更差?有没有办法防止这个问题?
【问题讨论】:
标签:
machine-learning
logistic-regression
data-science
【解决方案1】:
是的,就特定特征的信息熵而言,任何普通机器学习算法都会以与数值数据相同的方式处理分类数据。
考虑到这一点,在应用任何机器学习算法之前,您应该分析输入特征并确定目标上每个原因的解释方差。在您的情况下,如果标签 Duke 总是被识别为肥胖,那么考虑到该特定数据集是一个信息量极高的特征,因此应该对其进行加权。
我会通过为该功能添加权重来缓解此问题,从而最大限度地减少它对目标的影响。但是,如果这对于其他实例来说是一个非常有用的功能,那将是一种耻辱。
可以轻松绕过这个问题的算法是随机森林(决策树)。您可以消除任何基于此功能的规则,即 Duke。
将此特征映射到数字时要非常小心,因为这会影响大多数算法赋予此特征的重要性。