【发布时间】:2019-04-05 10:03:06
【问题描述】:
这是一个 100*54 的矩阵,有 100 条记录和 53 个二元变量和一个因变量 - Y/N
部分独立数据如下:
dependent == Y时我设法找到了最常见的变量
aa <- NULL
for (i in 1 : ncol(data1)) {
aa[i] <- length(which(data1[which(data1$Output == 'Y'), i] !=0))
}
现在,我想找出构成dependent == Y 的最常见的变量组合,组合中元素的数量无关紧要。
例如,当dependent == Y,
Combination Count
V1 = 1 & V2 = 1 30
V1 = 1 & V2 = 1 & V3= 1 25
V4 = 1 & V5 = 1 24
...
【问题讨论】:
-
先验算法可能会让你感兴趣:medium.com/@dimuthcse/… 在 R 中,你使用 arules 包来实现算法
-
不确定速度,但您可以运行
dplyr::count()。例如df %>% filter(dependent == 1) %>% group_by_at(2:54) %>% count() %>% arrange(-n)