【问题标题】:What does it mean to have zero mean in the data?数据中的均值为零是什么意思?
【发布时间】:2014-09-03 22:49:48
【问题描述】:

我正在尝试寻找方法来规范化我的数据集(表示为一个矩阵,其中文档作为行和列作为特征)并且我遇到了一种称为特征缩放的技术。我找到了一篇关于它的维基百科文章here

列出的方法之一是标准化,它表示“特征标准化使数据中每个特征的值具有零均值和单位方差。”这是什么意思(没有双关语)?

在这种方法中,“我们从每个特征中减去平均值。然后我们将每个特征的值(已经减去平均值)除以其标准差。”当他们说“减去平均值”时,是整个矩阵的平均值还是与该特征有关的列的平均值?

另外,如果应用了这种特征缩放方法,在对数据执行主成分分析 (PCA) 时,是否不必从列中减去平均值?

【问题讨论】:

    标签: normalization pca feature-selection


    【解决方案1】:

    基本思想是对您的数据集进行简单(且可逆)的转换,以使其更易于处理。您从每一列中减去一个常数,然后将每一列除以一个(不同的)常数。这些常量是特定于列的。

    当他们说“减去均值”时,是整个矩阵的均值吗 还是与该特征相关的列的平均值?

    与该特征相关的列的平均值。

    ...在对数据执行主成分分析 (PCA) 时,是否不必从列中减去平均值?

    正确。 PCA 需要平均值为零的数据。通常这是通过减去平均值作为第一步来强制执行的。如果平均值已被减去,则不需要该步骤。但是,执行两次“减去均值”操作并没有什么坏处。因为第二次的平均值将为零,所以什么都不会改变。形式上,我们可以说标准化是幂等的。

    【讨论】:

      【解决方案2】:

      通过查看文章,我的理解是您会减去该特征的平均值。这将为您提供一组描述相同数据布局但已标准化的特征的数据。

      假设您为一项新功能添加了数据。您可能希望原始功能的数据保持不变,并且不受新功能的影响。

      我猜如果你减去整个数据集的平均值,你仍然会得到一个“标准化”范围的值,但这会有所不同——你可能对单个特征的数据如何分布更感兴趣它的意思。

      您也可以在math.stackexchange.com 上查看(或提问)。

      【讨论】:

        猜你喜欢
        • 2020-02-07
        • 2017-06-29
        • 2021-06-02
        • 1970-01-01
        • 2015-01-22
        • 2014-04-10
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多