【发布时间】:2017-01-10 17:53:47
【问题描述】:
我有一个大数据集,我想根据特定变量的值(在我的情况下为生命周期)进行分区,然后在每个分区上运行逻辑回归。按照@tchakravarty 在Fitting several regression models with dplyr 中的回答,我编写了以下代码:
lifetimemodels = data %>% group_by(lifetime) %>% sample_frac(0.7)%>%
do(lifeModel = glm(churn ~., x= TRUE, family=binomial(link='logit'), data = .))
我现在的问题是如何使用生成的逻辑模型来计算其余数据(未选择的 0.3 部分)的 AUC,这些数据应该再次按生命周期分组?
提前非常感谢!
【问题讨论】:
-
引入一列
training = sample(c(T, F), size = n(), prob = c(0.3,0.7), replace = TRUE),然后从glm中保留这些行training == TRUE。