【发布时间】:2014-06-21 00:01:23
【问题描述】:
我有一个包含 3233 行和 62 列的训练数据集。自变量是Happy (train$Happy),它是一个二元变量。其他 61 列是分类自变量。
我创建了如下逻辑回归模型:
logModel <- glm(Happy ~ ., data = train, family = binary)
但是,我想减少进入模型的自变量数量,可能会减少到 20 个左右。我想从摆脱共线性分类变量开始。
有人可以阐明如何确定哪些分类变量是共线的,以及在从模型中删除变量时我应该使用什么阈值?
谢谢!
【问题讨论】:
-
This 可以帮助您开始
-
您可以使用潜在类分析来减少变量的数量,类似于使用因子分析来解决多元回归的多重共线性。
标签: r correlation glm logistic-regression