【发布时间】:2017-08-30 16:50:42
【问题描述】:
我正在尝试使用逻辑回归通过 Scikit-learn 工具进行一些预测任务。
她是我的任务的两个示例功能:
特征1(男人,女人,未知)---分类变量
特征2(点击次数)---连续变量
当我将数据输入逻辑回归时,我不确定如何对特征进行编码。
我应该用1、2、3来表示分类变量man、woman和unknow,还是用(1, 0, 0), (0 , 1, 0), (0, 0, 1) 在我使用 Scikit-learn 的逻辑回归时表示它们?那么连续变量呢?
【问题讨论】:
-
对于分类变量,如果它不代表您的情况下的任何基础顺序,请始终使用 one-hot 编码。对于连续变量,它们已经是数字了,所以不需要做任何事情
标签: scikit-learn logistic-regression one-hot-encoding