【问题标题】:How do I interpret Spark PCA output?如何解释 Spark PCA 输出?
【发布时间】:2018-03-02 10:57:31
【问题描述】:

我使用三个变量运行 Spark (2.2) PCA:x、y 和 z。 我明白了:

+-----------------------------------------------------------+
|pcaFeatures                                                |
+-----------------------------------------------------------+
|[4192.998527751072,7.815744760976605,2.064076348440629]    |
|[934.9987857492071,6.178849121007534,2.0229856767680876]   |
|[81.99880210954893,6.012098465539804,2.0127405793319535] ...

所以这些是特征向量。它们是否按顺序对应于 x、y 和 z?如果 PCA 是关于减少特征,那么我可以说 x 解释了大部分数据,所以只使用 x 吗?由于我有一个值向量,我可以用数学方法将其表示为百分比吗?

【问题讨论】:

    标签: apache-spark pca


    【解决方案1】:

    PCA 用于减少维数。如果输入维数是 3 (x, y, z),输出维数也是 3,那么就没有真正的降维,PCA 没有任何意义。

    输出特征不对应于 x、y 和 z。这只是一个新的 一组功能。不,你不能说第一个特征解释了大部分数据。

    【讨论】:

    • 谢谢!所以它对确定哪些特性值得保留没有帮助?有什么可以做的吗?我过去使用过卡方选择器,但那是用于分类数据。
    • @schoon PCA 用于通过将现有特征映射到新特征来减少特征数量,而不是通过选择相关特征的子集。如果你想选择一个子集,你应该尝试使用特征选择算法spark.apache.org/docs/2.3.0/ml-features.html#feature-selectors)
    猜你喜欢
    • 2018-05-02
    • 2021-04-04
    • 1970-01-01
    • 1970-01-01
    • 2015-11-11
    • 2016-08-18
    • 2011-09-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多