【发布时间】:2021-09-20 14:16:35
【问题描述】:
我从下面的链接中阅读了这篇文章。
https://towardsdatascience.com/principal-component-analysis-pca-with-scikit-learn-1e84a0c731b0
作者很好地描述了 PCA 分解的过程。我觉得我什么都懂,除了一件事。我们如何知道选择了哪些主成分,从而为最终提高我们的 ML 算法的性能保留?比如作者就是从这个开始的。
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
df = pd.DataFrame(data=cancer.data, columns=cancer.feature_names)
df.head()
好的,我知道这些功能是什么。伟大的。然后所有的乐趣都发生了,我们最终得到了这个。
df_new = pd.DataFrame(X_pca_95, columns=['PC1','PC2','PC3','PC4','PC5','PC6','PC7','PC8','PC9','PC10'])
df_new['label'] = cancer.target
df_new
在我们开始的 30 个功能中,我们如何知道最后 10 列的组成?似乎必须有某种最后一步才能将df_new 映射到df?
【问题讨论】:
-
我投票结束这个问题,因为它与 help center 中定义的编程无关,而是关于 ML 理论和/或方法 - 请参阅
machine-learning@ 中的介绍和注意事项987654325@.
标签: machine-learning pca