【问题标题】:Encoding method of Logistic Regression in Scikit-learnScikit-learn中Logistic回归的编码方法
【发布时间】:2017-08-30 16:50:42
【问题描述】:

我正在尝试使用逻辑回归通过 Scikit-learn 工具进行一些预测任务。

她是我的任务的两个示例功能:

特征1(男人,女人,未知)---分类变量

特征2(点击次数)---连续变量

当我将数据输入逻辑回归时,我不确定如何对特征进行编码。

我应该用1、2、3来表示分类变量ma​​n、woman和unknow,还是用(1, 0, 0), (0 , 1, 0), (0, 0, 1) 在我使用 Scikit-learn 的逻辑回归时表示它们?那么连续变量呢?

【问题讨论】:

  • 对于分类变量,如果它不代表您的情况下的任何基础顺序,请始终使用 one-hot 编码。对于连续变量,它们已经是数字了,所以不需要做任何事情

标签: scikit-learn logistic-regression one-hot-encoding


【解决方案1】:

功能 2 你应该保持原样。

功能 1 有点棘手。处理缺失数据时,您可以删除整行或尝试将值归入特征。我建议您阅读 Scikit-Learn 文档中的 Imputing missing values before building an estimator。这将向您展示一个估算数据和测试您的预测正在改进的示例。如果您估算数据,请尝试为已估算数据的行添加一个虚拟变量,我过去已成功应用此规范。

【讨论】:

    猜你喜欢
    • 2020-09-12
    • 2018-04-09
    • 2018-12-26
    • 2016-09-18
    • 2019-05-14
    • 2017-03-31
    • 2017-12-25
    • 2014-06-17
    相关资源
    最近更新 更多