【问题标题】:what to do after binning numerical feature?对数值特征进行分箱后该怎么办?
【发布时间】:2019-06-01 01:53:43
【问题描述】:

我想知道分箱后要做什么。例如,特征之一是年龄。所以我的数据是 [11, 12, 35, 26]。

然后我应用大小为 10 的分箱:

箱子,名称

[0, 10) --> 1

[10, 20) --> 2

[20, 30) -->3

[30, 40) --> 4

然后我的数据变成 [2, 2, 4, 3]。现在假设我想将此数据置于线性回归模式。我应该将 [2, 2, 4, 3] 视为数字特征吗?还是应该将它们视为分类特征,例如先进行一次热编码,然后将其提供给模型?

【问题讨论】:

    标签: machine-learning binning feature-engineering


    【解决方案1】:

    如果您正在构建线性模型,那么对这些 bin 进行热编码可能是更好的选择,这样如果与目标存在任何线性关系,ohe 将保留它。

    如果您正在构建基于树的模型,例如随机森林,那么您可以使用 [2, 2, 4, 3] 作为数值特征,因为这些模型是非线性的。

    如果构建回归模型并且不想使用 ohe 扩展特征空间,您可以将 bin 视为分类变量,并使用均值/目标编码对该变量进行编码,或者通过遵循每个 bin 的目标均值来使用数字进行编码.

    this article 中有关最后 2 个过程的更多详细信息。

    免责声明:我写了这篇文章。

    【讨论】:

    • 我建议你用单反引号将内联代码括起来,这样它的样式就很好了。
    猜你喜欢
    • 1970-01-01
    • 2019-10-11
    • 2011-01-31
    • 1970-01-01
    • 1970-01-01
    • 2020-11-12
    • 1970-01-01
    • 2020-08-06
    相关资源
    最近更新 更多