【发布时间】:2019-01-24 02:48:29
【问题描述】:
我有一个数据集,其中包含男性和女性的性别。我使用现在数据类型为 int8 的 pandas 功能将男性转换为 1,将女性转换为 0。现在我想标准化列,例如重量和高度。那么应该对性别列做什么:是否应该对其进行规范化。我打算将它用于线性回归。
【问题讨论】:
标签: python-3.x pandas scikit-learn data-science
我有一个数据集,其中包含男性和女性的性别。我使用现在数据类型为 int8 的 pandas 功能将男性转换为 1,将女性转换为 0。现在我想标准化列,例如重量和高度。那么应该对性别列做什么:是否应该对其进行规范化。我打算将它用于线性回归。
【问题讨论】:
标签: python-3.x pandas scikit-learn data-science
所以我认为您将标准化与标准化混为一谈。
归一化:
将您的数据重新缩放到 [0;1] 的范围内
标准化:
重新调整您的数据,使其平均值为 0,标准差为 1。
回到你的问题:
对于您的性别列,您的分数已经介于 0 和 1 之间。因此,您的数据已经“标准化”。所以你的问题应该是你是否可以标准化你的数据,答案是:是的,你可以,但这没有任何意义。这个问题已经在这里讨论过:Should you ever standardise binary variables?
【讨论】: