【发布时间】:2018-09-30 09:30:29
【问题描述】:
我是机器学习的新手,我正在尝试使用 k-means 聚类进行无监督学习(即使我读到 k-means 不能很好地处理分类数据)。我对分类变量进行了编码并尝试应用 kernel PCA,因为我有一个分类特征(它是性别)。我注意到内核参数有几个值,分别是'linear'、'poly'、'rbf'、'sigmoid'、'cosine'和'precomputed'。
我在互联网上进行了搜索,但找不到任何适当的解释。我也不确定 PCA 和 SVM 中内核的使用是否相同。有没有人可以解释它们是什么,何时应该使用它们和/或如何为我们的数据集选择正确的?由于我们无法可视化超过 3 维的数据集,我们将如何确定其形状以选择正确的参数?下面的部分代码只是为了显示参数的使用位置:
# Applying Kernel PCA
from sklearn.decomposition import KernelPCA
kpca = KernelPCA(n_components = 2, kernel = 'linear')
X = kpca.fit_transform(X)
提前谢谢你。
【问题讨论】:
标签: cluster-analysis pca unsupervised-learning dimensionality-reduction