【发布时间】:2018-06-10 02:30:37
【问题描述】:
我的数据集是数字和分类值的混合体,结果是类标签,大约有 400 列,数据集包含缺失值。我的脑海里有很多问题。首先是:
如何处理缺失值?我用-1替换了所有缺失值,可以吗??
如何对这些数据应用 MCA 因子分析?我应该结合训练和测试然后申请 MCA 吗?
如何解释 MCA 分析的输出以获得最相关的特征?
【问题讨论】:
我的数据集是数字和分类值的混合体,结果是类标签,大约有 400 列,数据集包含缺失值。我的脑海里有很多问题。首先是:
如何处理缺失值?我用-1替换了所有缺失值,可以吗??
如何对这些数据应用 MCA 因子分析?我应该结合训练和测试然后申请 MCA 吗?
如何解释 MCA 分析的输出以获得最相关的特征?
【问题讨论】:
不要触摸您的数据集 如果您使用 FactoMineR 包,它会自行处理缺失值。
你必须尝试这种代码
library(FactoMineR)
library(factoextra)
df <- data.frame(df) # Dataset with only categorical variables
res.mca <- MCA(df, quali.sup)
# Visualize Principal Components
fviz_eig(res.mca,
addlabels = TRUE)
# Individual plot
fviz_mca_ind(res.mca,
col.ind = "cos2",
axes = c(1,2), # axes by default
repel = TRUE)
# Variable plot on axe 1
fviz_contrib(res.mca,
choice = "var",
axes = 1, # you can switch with the other axes
top = 10)
# Best variable contribution
fviz_mca_var(res.mca, col.var = "contrib",
axes = c(1,2),
repel = TRUE)
解释看起来像 PCA。
【讨论】: