在应用逻辑回归时选择要标准化的变量答案

【问题标题】：Choosing which variables to normalize while applying logistic regression在应用逻辑回归时选择要标准化的变量
【发布时间】：2017-01-10 05:02:06
【问题描述】：

假设一个数据集包含独立变量，这些独立变量是连续变量和二元变量。通常标签/结果列被转换为一个热向量，而连续变量可以被归一化。但是二进制变量需要应用什么。

年龄种族性别神经情绪 15.95346 0 0 3 1 14.57084 1 1 0 0 15.8193 1 0 0 0 15.59754 0 1 0 0

这如何应用于逻辑回归和神经网络？

【问题讨论】：

【解决方案1】：

如果连续值的范围很小，则将其编码为二进制形式，并将该二进制形式的每一位用作预测器。例如，数字 2 = 10（二进制）。因此

predictor_bit_0 = 0

predictor_bit_1 = 1

试试看它是否有效。只是提醒您，此方法非常主观，可能会或可能不会为您的数据产生良好的结果。如果我找到更好的解决方案，我会及时通知您

【讨论】：

我认为这不能回答我的问题，因为连续变量在最大值和最小值之间差异很大，需要归一化。我已经清楚地提到了二进制变量需要做什么，（只有 2 个结果，如 0 或 1 的变量），我是直接使用它们还是需要执行类似的操作，如归一化？
好的，那么您可能想要对我发布的解决方案进行逆向工程。只需将二元预测变量组合成连续预测变量即可。例如，对于race=1，gender=0 和emot=1，x=1：组合形成一个二进制数，其中每一位代表预测变量之一。上述示例的组合预测器将是 1011（二进制）= 11 十进制。您可以按原样使用此预测器，也可以对其进行规范化。