【问题标题】:Choosing which variables to normalize while applying logistic regression在应用逻辑回归时选择要标准化的变量
【发布时间】:2017-01-10 05:02:06
【问题描述】:

假设一个数据集包含独立变量,这些独立变量是连续变量和二元变量。通常标签/结果列被转换为一个热向量,而连续变量可以被归一化。但是二进制变量需要应用什么。

年龄 种族 性别 神经 情绪 15.95346 0 0 3 1 14.57084 1 1 0 0 15.8193 1 0 0 0 15.59754 0 1 0 0

这如何应用于逻辑回归和神经网络?

【问题讨论】:

    标签: neural-network logistic-regression data-science


    【解决方案1】:

    如果连续值的范围很小,则将其编码为二进制形式,并将该二进制形式的每一位用作预测器。 例如,数字 2 = 10(二进制)。 因此

    predictor_bit_0 = 0

    predictor_bit_1 = 1

    试试看它是否有效。只是提醒您,此方法非常主观,可能会或可能不会为您的数据产生良好的结果。如果我找到更好的解决方案,我会及时通知您

    【讨论】:

    • 我认为这不能回答我的问题,因为连续变量在最大值和最小值之间差异很大,需要归一化。我已经清楚地提到了二进制变量需要做什么,(只有 2 个结果,如 0 或 1 的变量),我是直接使用它们还是需要执行类似的操作,如归一化?
    • 好的,那么您可能想要对我发布的解决方案进行逆向工程。只需将二元预测变量组合成连续预测变量即可。例如,对于race=1,gender=0 和emot=1,x=1:组合形成一个二进制数,其中每一位代表预测变量之一。上述示例的组合预测器将是 1011(二进制)= 11 十进制。您可以按原样使用此预测器,也可以对其进行规范化。
    猜你喜欢
    • 2020-12-30
    • 1970-01-01
    • 2016-06-30
    • 2021-06-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-08-17
    • 1970-01-01
    相关资源
    最近更新 更多