【问题标题】:normalization of categorical variable分类变量的归一化
【发布时间】:2019-01-24 02:48:29
【问题描述】:

我有一个数据集,其中包含男性和女性的性别。我使用现在数据类型为 int8 的 pandas 功能将男性转换为 1,将女性转换为 0。现在我想标准化列,例如重量和高度。那么应该对性别列做什么:是否应该对其进行规范化。我打算将它用于线性回归。

【问题讨论】:

    标签: python-3.x pandas scikit-learn data-science


    【解决方案1】:

    所以我认为您将标准化与标准化混为一谈。

    归一化:

    将您的数据重新缩放到 [0;1] 的范围内

    标准化:

    重新调整您的数据,使其平均值为 0,标准差为 1。

    回到你的问题:

    对于您的性别列,您的分数已经介于 0 和 1 之间。因此,您的数据已经“标准化”。所以你的问题应该是你是否可以标准化你的数据,答案是:是的,你可以,但这没有任何意义。这个问题已经在这里讨论过:Should you ever standardise binary variables?

    【讨论】:

    • 我阅读了交叉验证的答案,但无法理解。我正在使用 scikit-learn 的线性回归,请具体告诉我在我的情况下我应该做什么。我的意思是我应该标准化它与否。以及它对 rmse 的影响。
    • 答案是你不应该标准化你的性别栏
    • 如果有更多类别呢?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-08-12
    • 2018-11-29
    • 2017-03-31
    • 2018-02-06
    • 2019-02-27
    • 1970-01-01
    相关资源
    最近更新 更多