【发布时间】:2020-02-16 23:48:24
【问题描述】:
对由比例组成的数据运行 PCA 是否有效?例如,我有关于不同物种饮食中各种食物比例的数据。我可以对此类数据运行 PCA,还是应该先转换数据或做其他事情?
【问题讨论】:
-
有人想吗?
标签: pca
对由比例组成的数据运行 PCA 是否有效?例如,我有关于不同物种饮食中各种食物比例的数据。我可以对此类数据运行 PCA,还是应该先转换数据或做其他事情?
【问题讨论】:
标签: pca
我也有类似的问题。您应该搜索"compositional data analysis"。为了使用多变量技术(例如 PCA)分析它们,可以对比例进行转换。您还可以找到 "robust" PCA 算法来在 R 中运行您的分析。如果您找到适合您特定问题的解决方案,请告诉我们。
【讨论】:
我不这么认为。
PCA 会给你“不可能”的答案。您可能会得到具有比例不能具有的值的主成分,例如负值或大于 1 的值。您如何解释这个成分?
在技术方面,您的数据支持是 PCA 支持的一个子集。假设您有 $k$ 课程。那么:
解决这个问题的一种方法是,如果 $k$-simplex 与所有 $\R^k$ 之间存在一对一的映射。如果是这样,您可以从比例映射到 $\R^k$,在那里进行 PCA,然后将 PCA 向量映射到单纯形。
但我不确定单纯形是一个自包含的线性空间。如果添加单纯形的两个元素,则不会得到单纯形的元素:/
我认为更好的方法是聚类,例如使用高斯混合或光谱聚类。这与 PCA 有关。但是聚类的一个很好的特性是您可以将数据的任何元素表示为聚类的“凸组合”。如果您分析您的比例数据并找到聚类,它们(与 PCA 向量不同)将在单纯形空间内,并且它们的任何混合也将在。
我还建议研究非负矩阵分解。这类似于 PCA,但顾名思义,它避免了负分量和负特征向量。它对于在严格的正数据(如比例)中推断结构非常有用。但是 nmf 并没有为您提供单纯形空间的基础。
【讨论】: