【发布时间】:2014-09-03 22:49:48
【问题描述】:
我正在尝试寻找方法来规范化我的数据集(表示为一个矩阵,其中文档作为行和列作为特征)并且我遇到了一种称为特征缩放的技术。我找到了一篇关于它的维基百科文章here。
列出的方法之一是标准化,它表示“特征标准化使数据中每个特征的值具有零均值和单位方差。”这是什么意思(没有双关语)?
在这种方法中,“我们从每个特征中减去平均值。然后我们将每个特征的值(已经减去平均值)除以其标准差。”当他们说“减去平均值”时,是整个矩阵的平均值还是与该特征有关的列的平均值?
另外,如果应用了这种特征缩放方法,在对数据执行主成分分析 (PCA) 时,是否不必从列中减去平均值?
【问题讨论】:
标签: normalization pca feature-selection