【发布时间】:2019-03-18 14:07:18
【问题描述】:
在运行主成分分析之前,您应该对数据进行规范化,以免结果出现偏差。在正常情况下,这是一个相当简单的任务。我很好奇我应该如何规范化我的数据,其中包含数据集中的多种数据类型。我认识的一些(坚信)非常重要。其他我不太确定,但这就是我想在我的数据集上运行 PCA 的原因。
0 1 2 3 4 ...
0.112 'Bob' 68.47 'Right' 9493 ...
类似这样的东西,其中可能有一个没有分类支持的字符串,例如名称。而“权利”可以枚举到一个类别。
我不确定这是否有必要,但我会很感激一些建议。
【问题讨论】: