【发布时间】:2018-01-24 17:00:19
【问题描述】:
在数据科学中应用算法的过程中,我们需要对输入数据集进行特征缩放。我想知道这是否是强制性步骤,或者是否有任何技术可以决定执行特征缩放
1) 数据可视化 2) 统计值
【问题讨论】:
标签: data-science
在数据科学中应用算法的过程中,我们需要对输入数据集进行特征缩放。我想知道这是否是强制性步骤,或者是否有任何技术可以决定执行特征缩放
1) 数据可视化 2) 统计值
【问题讨论】:
标签: data-science
如果您的输入具有广泛的变化范围,则需要特征缩放,如果它们已经标准化,那么您就不需要它。 没有一个精确的规则可以遵循。作为基本规则,请考虑归一化的输入比非归一化的输入效果更好。
【讨论】:
如果您创建一个具有两个数字特征的模型,并假设一个具有较高的值,例如薪水(例如 2345、1756、34521 等),另一个具有较低的值,例如年龄(例如 33、17、29 等) )。显然,具有较高值的数值特征将对模型产生明显的影响。
所以为了避免这种情况,我们应该将两个特征缩放到相同的水平并进行建模。
这取决于您用于构建模型的算法。只有少数模型需要特征缩放,而不是全部。
【讨论】: