【发布时间】:2012-01-17 05:58:25
【问题描述】:
我有以下有点大的数据集:
> dim(dset)
[1] 422105 25
> class(dset)
[1] "data.frame"
>
不做任何事情,R 进程似乎需要大约 1GB 的 RAM。
我正在尝试运行以下代码:
dset <- ddply(dset, .(tic), transform,
date.min <- min(date),
date.max <- max(date),
daterange <- max(date) - min(date),
.parallel = TRUE)
运行该代码,RAM 使用量猛增。它完全饱和了 60GB 的 RAM,在 32 核机器上运行。我做错了什么?
【问题讨论】:
-
作为快速跟进,我尝试使用更小的数据子集进行此操作,但 RAM 使用量仍高达 17 GB
-
<-在我看来很有趣。如果您在括号中使用=会发生什么?
标签: r plyr data.table