Scikit-learn中Logistic回归的编码方法答案

【问题标题】：Encoding method of Logistic Regression in Scikit-learnScikit-learn中Logistic回归的编码方法
【发布时间】：2017-08-30 16:50:42
【问题描述】：

我正在尝试使用逻辑回归通过 Scikit-learn 工具进行一些预测任务。

她是我的任务的两个示例功能：

特征1（男人，女人，未知）---分类变量

特征2（点击次数）---连续变量

当我将数据输入逻辑回归时，我不确定如何对特征进行编码。

我应该用1、2、3来表示分类变量man、woman和unknow，还是用(1, 0, 0), (0 , 1, 0), (0, 0, 1) 在我使用 Scikit-learn 的逻辑回归时表示它们？那么连续变量呢？

【问题讨论】：

对于分类变量，如果它不代表您的情况下的任何基础顺序，请始终使用 one-hot 编码。对于连续变量，它们已经是数字了，所以不需要做任何事情

标签： scikit-learn logistic-regression one-hot-encoding

【解决方案1】：

功能 2 你应该保持原样。

功能 1 有点棘手。处理缺失数据时，您可以删除整行或尝试将值归入特征。我建议您阅读 Scikit-Learn 文档中的 Imputing missing values before building an estimator。这将向您展示一个估算数据和测试您的预测正在改进的示例。如果您估算数据，请尝试为已估算数据的行添加一个虚拟变量，我过去已成功应用此规范。

【讨论】：