【发布时间】:2021-12-13 05:57:06
【问题描述】:
我有一个超过 250,000 列和 200 行的 data.frame,因此大约有 5000 万个单独的值。我正在尝试对列的方差进行细分,以便选择方差最大的列。
我使用 dplyr 如下:
df %>% summarise_if(is.numeric, var)
它已经在我的 16gb 内存的 imac 上运行了大约 8 个小时。
有没有办法为调用分配更多资源,或者更有效的方法来汇总列之间的差异?
【问题讨论】:
-
8 小时似乎太多了,即使对于 dplyr 也是如此。听起来有些不对劲。
-
是的,这很奇怪,正如您在下面看到的那样,转换为长格式大约需要 20 秒...
标签: r dplyr tidyverse summarize